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本 书 是 大 数据 应 用 人 才 培 养 系 列 教材 中 的 一 册 , 讲解 了 大 数据 系统 运行 维护 过 程 中 的 各 个 主要 阶段 及 
其 任务 ， 包 括 配 置 管理 、 系 统管 理 、 故 障 管理 、 性 能 管理 、 安 全 管理 、 高 可 用 性 管理 、 应 用 变更 管理 、 升 
级 管理 及 服务 资源 管理 ， 内 容 全 面 且 翔 实 , 兼 具 基 础 理论 知识 与 运 维 实践 经 验 , 特别 是 重点 介绍 了 大 数据 
系统 的 运 维特 点 及 运 维 技能 ， 以 保障 大 数据 系统 的 稳定 可 靠 运行 ， 更 好 地 支撑 大 数据 的 商业 应 用 价值 。 

本 书 具 有 很 强 的 系统 性 和 实践 指导 性 ， 可 以 作为 培养 应 用 型 人 才 的 课程 教材 ， 也 同样 适合 于 有 意 从 事 
IT 系统 运 维 工作 的 广大 从 业者 和 爱好 者 作为 参考 书 。 
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总 B 


短 短 几 年 间 ,， 大 数据 就 以 一 日 千里 的 发 展 速度 ， 快 速 实现 了 从 概念 
到 落地 ， 直 接 带 动 了 相关 产业 的 井喷 式 发 展 。 数 据 采 集 、 数 据 存储 、 数 
据 挖 掘 、 数 据 分 析 等 大 数据 技术 在 越 来 越 多 的 行业 中 得 到 应 用 ， 随 之 而 
来 的 就 是 大 数据 人 才 问 题 的 凸显 。 根 据 《 人 民 上 日报》 的 报道 ， 未 来 3 一 
5 年 ， 中 国 需 要 180 万 数据 人 才 ， 但 目前 只 有 约 30 HA, AFO 
到 150 万 之 多 。 

大 数据 是 一 个 实践 性 很 强 的 学 科 , 在 其 呈现 金字 塔 型 的 人 才 资 源 模 
型 中 , 数据 科学 家 居于 塔 尖 位 置 ,然而 该 领域 对 于 经 验 丰 富 的 数据 科学 
家 需求 相对 有 限 ， 反 而 是 对 大 数据 底层 设计 、 数 据 清 洗 、 数 据 挖掘 及 大 
数据 安全 等 相关 人 才 的 需求 急剧 上 升 , 可 以 说 占据 了 大 数据 人 才 需 求 的 
80% 以 上 。 比 如 数据 清洗 、 数 据 挖掘 等 相关 职位 ， 需 要 源源 不 断 的 大 量 
专科 人 才 。 

急切 的 人 才 需 求 直接 催 热 了 相应 的 大 数据 应 用 专业 ，2018 年 1 月 
18 日 ， 教 育 部 公布 “大 数据 技术 与 应 用 ”专业 备案 和 审批 结果 ， 已 有 
270 所 高 职 院 校 申报 开展 “大 数据 技术 与 应 用 ”专业 ， 其 中 共有 208 所 
职业 院 校 获 批 “ 大 数据 技术 与 应 用 ”专业 。 随 着 大 数据 的 深入 发 展 ， 未 
来 几 年 申请 与 获 批 该 专业 的 职业 院 校 数量 仍 将 持续 走高 。 同 时 ， 对 于 国 
家 教育 部 正式 设立 的 “数据 科学 与 大 数据 技术 ”本 科 新 专业 ， 除 已 获 批 
的 35 所 大 学 之 外 ，2017 年 申请 院 校 也 高 达 263 所 。 

即使 如 此 , 就 目前 而 言 , 在 大 数据 人 才 培 养 和 大 数据 课程 建设 方面 ， 
大 部 分 专科 院 校 仍然 处 于 起 步 阶 段 ， 需 要 探索 的 问题 还 有 很 多 。 首 先 ， 
大 数据 是 个 新 生 事物 ， 懂 大 数据 的 老师 少 之 又 少 ， 院 校 缺 “人 ” 其 次 ， 
院 校 尚未 形成 完善 的 大 数据 人 才 培 养 和 课程 体系 , 缺乏 “机 制 ” 再 次 ， 
大 数据 实验 需要 为 每 位 学 生 提供 集群 计算 机 ， 院 校 缺 “机 器 ”;， 最 后 ， 
院 校 没 有 海量 数据 ， 开 展 大 数据 教学 实验 工作 缺少 “原材料 ”。 

对 于 注重 实 操 的 大 数据 技术 与 应 用 专业 专科 建设 而 言 , 需要 重点 面 
向 网 络 息 虫 、 大 数据 分 析 、 大 数据 开发 、 大 数据 可 视 化 、 大 数据 运 维 工 
程 师 的 工作 岗位 , 帮助 学 生 掌 握 大 数据 技术 与 应 用 专业 必 备 知识 , 使 其 
具备 大 数据 采集 、 存 储 、 清 洗 、 分 析 、 开 发 及 系统 维护 的 专业 能 力 和 技 





e— 


V 大 数据 系统 运 维 一 。 


能 ， 成 为 能 够 服务 区 域 经 济 发 展 的 〈 发 展 型 或 创新 性 或 复合 型 ) 技术 技 
能 人 才 。 无 论 是 缺 “ 人 ” 缺 “ 机 制 ” 缺 “ 机 器 ”， 还 是 缺少 “原材料 内 
最 终 都 难以 培养 出 合格 的 大 数据 人 才 。 

其 实 , 早 在 网 格 计算 和 云 计算 兴起 时 , 我 国 科 技工 作者 就 曾 遇 到 过 
类 似 的 挑战 , 我 有 幸 参 与 了 这 些 问题 的 解决 过 程 。 为 了 解决 网 格 计 算 问 
题 ， 我 在 清华 大 学 读 博 期 间 ， 于 2001 年 创办 了 中 国 网 格 信息 中 转 站 网 
站 , 每 天 花 几 个 小 时 收集 和 分 享有 价值 的 资料 给 学 术 界 ,此 后 我 也 多 次 
筹办 和 主持 全 国 性 的 网 格 计算 学 术 会 议 ， 进 行 信息 传递 与 知识 分 享 。 
2002 年 ， 我 与 其 他 专家 合作 的 《网 格 计算 》 教 材 也 正式 面世 。 

2008 年 ， 当 云 计算 开 始 萌 芽 之 时 ， 我 创办 了 中 国 云 计算 网 站 
(chinacloud.cn) (在 各 大 搜索 引擎 “ 云 计算 ”关键 词 中 排名 第 一 ), 2010 
年 出 版 了 《 云 计算 (第 1 版 )》，2011 年 出 版 了 《 云 计算 (第 2 版 )》， 
2015 年 出 版 了 《 云 计算 (第 3 版 )》， 每 一 版 都 花费 了 大 量 成 本 制作 并 
免费 分 享 对 应 的 几 十 个 教学 PPT。 目 前 ， 这 些 PPT 的 下 载 总 量 达 到 了 
几 百 万 次 之 多 。 同 时 ,《 云 计算 》 一 书 也 成 为 国内 高 校 的 优秀 教材 ， 在 
中 国 知 网 公布 的 高 被 引 图 书 名 单 中 ,《 云 计算 》 在 自动 化 和 计算 机 领域 
排名 全 国 第 一 。 

除了 资料 分 享 ， 在 2010 年 ， 我 们 也 在 南京 组 织 了 全 国 高 校 云 计算 
师资 培训 班 , 培养 了 国内 第 一 批 云 计算 老师 , 并 通过 与 华为 、 中 兴 、360 
等 知名 企业 合作 ,输出 云 计算 技术 ,培养 云 计算 研发 人 才 。 这 些 工作 获 
得 了 大 家 的 认可 与 好 评 ， 此 后 我 接连 担任 了 工信部 云 计算 研究 中 心 专 
家 、 中 国 云 计算 专家 委员 会 云 存 储 组 组 长 、 中 国 大 数据 应 用 联盟 人 工 知 
能 专家 委员 会 主任 等 。 

近 几 年 , 面 对 日 益 突 出 的 大 数据 发 展 难题 , 我 们 也 正在 尝试 使 用 此 
前 类 似 的 办 法 去 应 对 这 些 挑战 。 为 了 解决 大 数据 技术 资料 缺乏 和 交流 不 
够 通 透 的 问题 ， 我 们 于 2013 年 创办 了 中 国 大 数据 网 站 Cthebigdata.cn), 
投入 大 量 的 人 力 进行 日 常 维护 , 该 网 站 目前 已 经 在 各 大 搜索 引擎 的 “大 
数据 ”关键 词 排名 中 位 居 第 一 ; 为 了 解决 大 数据 师资 匮乏 的 问题 ， 我 们 
面向 全 国 院 校 陆 续 举 办 多 期 大 数据 师资 培训 班 ， 致 力 于 解决 “ 缺 人 ”的 
问题 。 

2016 年 年 末 至 今 , 我 们 已 在 南京 多 次 举办 全 国 高 校 /高 职 /中 职 大 数 
据 免费 培训 班 ， 基 于 《大 数据 》《 大 数据 实验 手册 》 以 及 云 创 大 数据 提 
供 的 大 数据 实验 平台 ， 帮 助 到 场 老 师 们 跑 通 了 Hadoop, Spark 等 多 个 大 
数据 实验 ， 使 他 们 跨 过 了 “从 理论 到 实践 ， 从 知道 到 用 过 ”的 门槛 。 





其 中 , 为 了 解决 大 数据 实验 难 的 问题 而 开发 的 大 数据 实验 平台 , JE 
在 为 越 来 越 多 高 校 的 教学 科研 带 去 方便 ， 帮 助 解决 “ 缺 机 器 ”与 “ 缺 原 
材料 ”的 问题 : 2016 E, 我 带领 云 创 大 数据 (www.cstor.cn， 股 票 代码 : 
835305) 的 科研 人 员 ， 应 用 Docker 容器 技术 ， 成 功 开发 了 BDRack 大 
数据 实验 一 体 机 ， 它 打破 虚拟 化 技术 的 性 能 瓶颈 ， 可 以 为 每 一 位 参加 实 
RAJA REMH Hadoop 集群 、Spark SE SÉ. Storm 集群 等 ， 自 带 实验 所 
需 数据 ， 并 准备 了 详细 的 实验 手册 (包含 42 个 大 数据 实验 )、PPT RISE 
验 过 程 视频 ,可 以 开展 大 数据 管理 、 大 数据 挖掘 等 各 类 实验 ， 并 可 进行 
精确 营销 、 信 用 分 析 等 多 种 实战 演练 。 

目前 ， 大 数据 实验 平台 已 经 在 郑州 大 学 、 成 都 理工 大 学 、 金 陵 科 技 学 
院 、 天 津 农 学 院 、 西 京 学 院 、 郑 州 升 达 经 贸 管 理学 院 、 信 阳 师 范 学 院 、 镇 
江 高 等 职业 技术 学 校 等 多 所 院 校 部 署 应 用 ， 并 广 受 校方 好 评 。 该 平台 也 以 
云 服 务 的 方式 在 线 提供 (大 数据 实验 平台 ，https://bd.cstor.cn)， 实 验 更 
是 增 至 85 个 ， 帮 助 师 生 通过 自学 ， 用 一 个 月 左右 成 为 大 数据 实验 动手 
的 高 手 。 此 外 , 面 对 席 卷 而 来 的 人 工 智能 浪潮 , 我 们 团队 推出 的 AIRack 
人 工 智能 实验 平台 、DeepRack 深度 学 习 一 体 机 以 及 dServer 人 工 智 能 服 
务 器 等 系列 应 用 ,一 举 解决 了 人 工 智 能 实验 环境 搭建 困难 、 缺 乏 实验 指 
导 与 实验 数据 等 问题 , 目前 已 经 在 清华 大 学 、 南 京 大 学 、 南 京 农业 大 学 、 
西安 科技 大 学 等 高 校 投入 使 用 。 

在 大 数据 教学 中 ， 本 科 院 校 的 实践 教学 应 更 加 系统 性 ， 偏 向 新 技术 
的 应 用 ， 且 对 工程 实践 能 力 要 求 更 高 。 而 高 职 、 高 专 院 校 则 更 偏向 于 技 
术 性 和 技能 训练 ,理论 以 够 用 为 主 , 学生 将 主要 从 事 数据 清洗 和 运 维 方 
面 的 工作 。 基 于 此 ， 我 们 联合 多 家 高 职 院 校 专家 准备 了 《 云 计算 导论 》 
《大 数据 导论 》《 数 据 挖掘 基础 》《R 语言 》>《 数 据 清洗 》《 大 数据 系统 
运 维 》《 大 数据 实践 》 系 列 教材 ， 帮 助 解决 “机 制 ” 人 欠缺 的 问题 。 

此 外 ， 我 们 也 将 继续 在 中 国 大 数据 〈thebigdatacn ) 和 中 国 云 计 算 
Cchinacloud.cn) 等 网 站 免费 提供 配套 PPT 和 其 他 资料 。 同 时 ， 持 续 开放 大 
数据 实验 平台 (https://bd.cstor.cn)、 免 费 的 物 联 网 大 数据 托管 平台 万 物 云 
Cwanwuyun.com) 和 环境 大 数据 免费 分 享 平台 环境 云 (envicloud.cn)， 使 
资源 与 数据 随手 可 得 ， 让 大 数据 学 习 变 得 更 加 轻松 。 

在 此 ， 特 别 感谢 我 的 硕士 导师 谢 希 仁 教授 和 博士 导师 李 三 立 院士 。 
谢 希 仁 教 授 所 著 的 《计算 机 网 络 》 已 经 更 新 到 第 7 版 , 与 时 俱 进 日 臻 完 
美 , 时 时 提醒 学 生 要 以 这 样 的 标准 来 写 书 。 李 三 立 院士 是 留 苏 博士 , 为 
我 国 计 算 机 事业 做 出 了 杰出 贡献 ， 曾 任国 家 攀登 计划 项 目 首席 科学 家 。 
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他 的 严谨 治学 带 出 了 一 大 批 杰出 的 学 生 。 

本 从 书 是 集体 智慧 的 结晶 ， 在 此 谨 向 付出 辛勤 劳动 的 各 位 作者 致敬 ! 
书 中 难免 会 有 不 当 之 处 ,请 读者 不 音 赐教 。 我 的 邮箱 : gloud@126.com， 微 
信 公 众 号 : 刘 觅 看 未 来 (lpoutlook )。 
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随 着 信息 技术 , 尤其 是 互联 网 技术 的 迅速 发 展 , 各 种 新 技术 应 用 不 
断 渗透 到 人 们 的 生活 中 , 影响 并 改变 着 传统 的 生活 和 工作 方式 。 现代 社 
会 高 度 依赖 计算 机 提供 的 相关 服务 ， 人 们 的 一 举 一 动 ， 几乎 都 在 触发 计 
算 机 的 计算 ， 直 接 或 者 间接 产生 大 量 数据 。 现 今 ， 大 数据 已 广为人知 ， 
被 认为 是 信息 时 代 的 “新 石油 ”。 据 不 完全 统计 ， 大 数据 量 呈 现 出 每 两 
年 翻 一 倍 的 爆炸 性 增长 态势 , 隐藏 着 巨大 的 机 会 和 价值 ， 并 将 给 社会 带 
来 诸多 变革 和 发 展 ,已 引起 学 界 、 政 界 以 及 产业 界 的 广泛 关注 ， 各 行业 
已 纷纷 建立 起 大 数据 处 理 系 统 ， 通 过 对 数据 的 分 析 和 挖 据 ， 为 经 济 、 社 
会 甚至 国防 安全 等 提供 帮助 。 

大 数据 的 “大 ”包含 几 个 维度 : 数据 量 大 、 种 类 多 、 价 值 密度 低 和 
增长 速度 快 等 。 传统 的 集中 式 系统 处 理 方式 存在 性 能 不 达标 、 经济 成 本 
高 等 问题 ， 正 因为 如 此 ， 分 布 式 系 统 成 为 大 数据 系统 的 主流 发 展 方向 。 
谷歌 三 篇 论文 (Google File System, MapReduce, Bigtable) 的 公开 发 
表 是 大 数据 技术 的 一 个 关键 引爆 点 , 开启 了 使 用 一 般 性 能 的 服务 器 搭建 
大 批量 数据 处 理 系统 的 新 趋势 。 

时 至 今日 , 大 数据 技术 的 生态 圈 已 经 越 来 越 庞 大 , 目前 比较 流行 的 
应 用 主要 是 Hadoop、Spark 和 Elastic Search, 绝 大 多 数 的 大 数据 系统 是 
基于 这 3 个 技术 进行 开发 的 , 以 这 些 技术 为 主题 的 大 数据 开发 书籍 也 非 
常 普及 。 但 是 开发 只 是 系统 整个 生命 周期 的 一 部 分 , 要 想 系 统 稳定 运行 ， 
真正 发 挥 价值 , 还 需要 后 期 的 运 维 管理 。 根据 笔 者 多 年 开发 和 运 维 的 工 
作 经 验 来 看 ， 运 维 工作 也 具有 很 大 的 挑战 性 ， 既 要 满足 业务 快速 上 线 ， 
也 要 保证 系统 的 安全 可 用 , 非常 强调 实践 和 经 验 。 基 于 大 数据 系统 的 运 
"ETE, 还 需要 考虑 其 服务 器 数量 多 、 数 据 存 储量 大 、 开 源 技术 多 和 新 
技术 稳定 性 有 待 提 高 等 特点 , 一 些 传统 运 维 工作 的 服务 器 管理 、 备 份 管 
理 、 升 级 管理 和 性 能 调 优等 工作 , 都 需要 针对 大 数据 技术 的 特点 进行 相 
应 的 改变 与 调整 。 

受 清华 大 学 出 版 社 之 邀 , 结合 大 数据 系统 的 特点 , 笔者 从 运 维 W 
角 进 行 亲 述 ， 编 写 一 本 大 数据 运 维 的 教材 ， 既 能 弥补 这 一 方面 的 空白 ， 
也 是 对 自己 工作 的 总 结 ， 为 大 数据 行业 的 发 展 尽 自己 的 一 点 绵薄 之 力 。 

本 书 从 运 维 工作 的 分 类 出 发 , 对 每 种 运 维 工作 都 进行 了 由 浅 入 深 的 
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介绍 。 配 置 管理 是 整个 运 维 工 作 的 基础 和 核心 ,没有 配置 管理 ， 就 如 同 
没有 地 图 在 复杂 的 城市 道路 中 行走 一 样 ， 随 时 可 能 迷失 方向 ; 同时 ,在 
配置 管理 章节 介绍 大 数据 技术 的 运 维 管理 工具 , 掌握 这 些 工具 能 有 效 地 
提高 工作 效率 。 系 统管 理 、 故 障 管理 、 变 更 管理 和 升级 管理 是 基础 性 的 ， 
也 是 日 常 性 的 运 维 工作 ; 安全 管理 、 性 能 管理 、 服 务 资源 管理 和 高 可 用 
管理 则 在 运 维 工作 中 相对 比较 高 阶 , 也 是 比较 复杂 的 内 容 ; 而 且 系统 运 
维 注重 强调 标准 、 流 程 和 制度 。 本 书 侧重 理论 和 实践 的 结合 ， 考 虑 到 以 
青年 学 生 为 主 的 读者 ,其 对 相关 概念 接触 不 多 , 书 中 在 概念 阐述 上 会 占 
有 一 定 篇 幅 , 帮助 读者 能 更 好 地 理解 和 融会 贯通 , 若 学 生 对 书 上 的 一 些 
名 词 或 术语 感到 比较 陌生 ， 则 可 通过 翻阅 书后 的 名 词 解 释 进 一 步 理解 。 
本 书 也 安排 了 专门 章节 来 详细 介绍 运 维 的 关键 技术 和 工具 , 希望 读者 能 
按照 课本 内 容 完 成 相关 实验 或 者 练习 ， 达 到 学 以 致 用 的 效果 。 

本 书 由 姜 才 康 拟定 大 纲 并 通 稿 ， 其 中 第 1 章 配 置 管理 、 第 7 章 应 用 
变更 管理 和 第 8 章 升 级 管理 由 夏 志 江 编写 , 第 2 章 系 统管 理 及 日 常 巡 检 
和 第 9 章 服务 资源 管理 由 姜 才 康 编写 , 第 3 章 故障 管理 和 第 6 章 高 可 用 
性 管理 由 朱 辉 编 写 , 第 4 章 性 能 管理 由 陶 建 辉 编 写 , 第 5 章 安全 管理 由 
何 玮 编写 。 本 书 在 编写 过 程 中 受到 清华 大 学 出 版 社 的 大 力 支持 和 刘 鹏 教 
授 的 悉心 指导 ,也 得 到 中 国外 汇 交 易 中 心 领 导 、 同 事 以 及 其 他 老师 的 支 
持 与 帮助 ， 在 此 深 表 感谢 ! 虽然 在 完稿 前 我 们 反复 检查 校对 ， 力 求 做 到 
内 容 清晰 无 误 、 便 于 学 习 理 解 ， 但 朴 漏 和 不 完善 之 处 仍 在 所 难免 ， 奶 请 
读者 批评 指正 ， 不 音 赐教 ! 


EE 
于 中 国外 汇 交 易 中 心 
2018 年 2 月 
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配置 管理 


配置 管理 CCM, Configuration Management) 是 通过 技术 或 行政 手 
段 对 软件 产品 及 其 开发 过 程 和 生命 周期 进行 控制 、 规 范 的 一 系列 措施 。 
配置 管理 的 目标 是 记录 软件 产品 的 演化 过 程 , 确保 软件 开发 者 在 软件 生 
命 周 期 中 各 个 阶段 都 能 得 到 精确 的 产品 配置 。 

随 着 软件 系统 的 日 益 复 杂 化 和 用 户 需 求 、 软 件 更 新 的 频繁 化 ， 配 置 管 
理 逐 渐 成 为 软件 生命 周期 中 的 重要 控制 过 程 , 在 软件 开发 过 程 中 扮演 着 越 
来 越 重要 的 角色 。 一 个 好 的 配置 管理 过 程 能 覆盖 软件 开发 和 维护 的 各 个 方 
面 ， 同 时 对 软件 开发 过 程 的 宏观 管理 〈 即 项 目 管理 )， 也 有 重要 的 支持 作 
用 。 良 好 的 配置 管理 能 使 软件 开发 过 程 有 更 好 的 可 预测 性 ， 使 软件 系统 具 
有 可 重复 性 ， 使 用 户 和 主管 部 门 对 软件 质量 和 开发 小 组 有 更 强 的 信心 。 
ITIL 即 IT 基础 架构 库 (Information Technology Infrastructure Library), Hi 
英国 政府 部 门 CCTA (Central Computing and Telecommunications Agency) 
在 20 世纪 80 年 代 末 制定 , 现 由 英国 商务 部 OGC COffice of Government 
Commerce) 负责 管理 ， 主 要 适用 于 IT 服务 管理 (TSM). ITIL 为 企业 
的 IT 服务 管理 实践 提供 了 一 个 客观 、 严 说、 可 量化 的 标准 和 规范 。 在 
ITIL 体系 中 , 配置 管理 作为 一 项 基础 流程 支撑 着 其 他 4 项 流程 (事件 管 
理 、 问 题 管理 、 变 更 管理 和 发 布 管理 )。 配 置 项 作为 配置 管理 中 的 基本 
单元 , 其 颗粒 度 可 以 根据 具体 的 实践 灵活 地 细 化 , 既 有 系统 级 抽象 的 配 
置 项 , 也 有 由 具体 的 软件 或 者 硬件 信息 构成 的 配置 项 单元 。 由 配置 管理 
数据 库 (CMDB) 统一 储存 配置 项 以 及 不 同 配 置 项 之 间 的 关联 关系 。 配 
置 管 理 数据 库 随 着 变更 管理 流程 的 进行 而 更 新 配置 项 信息 , 结合 发 布 管 





理 流 程 , 确保 配置 项 信息 本 身 以 及 各 个 配置 项 信息 之 间 的 关系 反映 了 当 
前 IT 基础 架构 的 实际 情况 。 

ITIL 所 讲 的 配置 管理 是 从 软件 工程 管理 角度 出 发 的 , 把 一 切 对 象 都 当 
作 配 置 ， 如 源 代码 、 文 档 、 人 员 、 服 务 器 甚至 硬盘 和 内 存 等 。ITIL 中 的 配 
置 管理 和 传统 软件 开发 的 应 用 程序 配置 管理 有 着 本 质 的 不 同 , 应 用 程序 配 
置 管理 是 指 通 过 技术 或 行政 手段 对 软件 产品 及 其 开发 过 程 和 生命 周期 进 
行 控制 、 规 范 的 一 系列 措施 。 配置 管理 的 目标 是 记录 软件 产品 的 演化 过 程 ， 
确保 软件 开发 者 在 软件 生命 周期 中 各 个 阶段 都 能 得 到 精确 的 产品 配置 。 

配置 管理 一 直 被 认为 是 ITIL 服务 管理 的 核心 ， 因 为 其 他 所 有 流程 均 
需要 使 用 配置 管理 数据 库 (CMDB)。CMDB 存储 与 管理 企业 IT 架构 中 设 
备 的 各 种 配置 信息 ， 它 与 所 有 服务 支持 和 服务 交付 流程 都 紧密 相 联 ， 支 持 
这 些 流程 的 运转 、 发 挥 配 置信 息 的 价值 ， 同 时 依赖 于 相关 流程 保证 数据 的 
准确 性 。 在 实际 的 项 目 中 ，CMDB 常常 被 认为 是 构建 其 他 ITIL 流程 的 基 
础 而 优先 考虑 , ITIL 项 目的 成 败 与 能 和 否 成 功 建立 CMDB 有 非常 大 的 关系 。 


1.1 配置 管理 内 容 
1.1.1. 配置 管理 术语 定义 


Q 配置 基线 : 在 服务 或 服务 组 件 的 生命 周期 中 ， 某 一 时 间 点 被 正 
式 指 定 的 配置 信息 。 

OQ 配置 项 : 配置 项 是 指 要 在 配置 管理 控制 下 的 资产 、 人 力 、 服 务 
组 件 或 者 其 他 逻辑 资源 。 从 整个 服务 或 系统 来 说 ， 包 括 硬件 、 
软件 、 文 档 、 支 持 人 员 到 单独 软件 模块 或 硬件 组 件 (CPU、 内 
存 、SSD、 硬 盘 等 )。 配 置 项 需要 有 整个 生命 周期 (状态 ) 的 管 
理 和 追溯 CAR). 

口 配置 项 属性 : 一 个 配置 项 就 是 一 个 对 象 ， 有 对 象 便 有 属性 ， 属 
性 是 一 个 配置 项 的 具体 描述 。 如 服务 器 这 个 配置 项 ， 可 以 具体 
描述 为 在 哪个 机 房 、 哪 个 机 柜 的 哪个 位 置 、 现 在 是 否 有 业务 运 
行 、 具 体 谁 负责 等 。 配 置 项 和 属性 可 以 转换 ， 如 IP 地 址 ， 是 
一 个 资源 对 象 存 在 ; 但 是 从 服务 器 的 角度 来 说 ， 它 又 作为 一 个 
属性 存在 ， 更 准确 地 说 是 网 卡 的 属性 。 

口 配置 管理 数据 库 (CMDB): 用 于 记录 配置 项 全 生命 周期 属性 
及 配置 项 之 间 关 系 的 存储 。 

ü 制订 配置 管理 计划 : 配置 管理 员 制 订 《 配 置 管理 计划 》， 主 要 
内 容 包 括 配 置 管理 软 硬 件 资源 、 配 置 项 计划 、 基 线 计划 、 交 付 
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计划 、 备 份 计划 等 。 变 更 控制 委员 会 (CCB) 审批 该 计划 。 

O 版 本 控制 : 在 项 目 开发 过 程 中 ， 绝 大 部 分 的 配置 项 都 要 经 过 多 
次 的 修改 才能 最 终 确 定 下 来 。 对 配置 项 的 任何 修改 都 将 产生 新 
的 版 本 。 由 于 不 能 保证 新 版 本 一 定 比 老 版 本 “好 ”， 所 以 不 能 
抛弃 老 版 本 。 版 本 控制 的 目的 是 按照 一 定 的 规则 保存 配置 项 的 
所 有 版 本 ， 避 免 发 生 版 本 丢失 或 混淆 等 现象 ， 并 且 可 以 快速 准 
确 地 查找 到 配置 项 的 任何 版 本 。 

一 般配 置 项 的 状态 有 3 种 :“ 草 稿 ^“ 正 式 发 布 ” 和 “正在 修改 ” 

本 规程 制定 了 配置 项 状态 变迁 与 版 本 号 的 规则 。 

口 变更 控制 : 在 项 目 开发 过 程 中 ， 配 置 项 发 生变 更 几乎 是 不 可 避免 
的 。 变 更 控制 的 目的 就 是 为 了 防止 配置 项 被 随意 修改 而 导致 混乱 。 

修改 处 于 “草稿 ” 状态 的 配置 项 不 算是 “变更 ”无 须 CCB 的 批准 ， 

修改 者 按照 版 本 控制 规则 执行 即 可 。 

当 配置 项 的 状态 成 为 “正式 发 布 ”， 或 者 被 “冻结 ”后 ， 此 时 任何 

人 都 不 能 随意 修改 , 必须 依据 “申请 一 审批 一 执行 变更 一 再 评审 一 结束 ” 
的 规则 执行 。 

口 配置 审计 : 为 了 保证 所 有 人 员 〈 包 括 项 目 成 员 、 配 置 管 理 员 和 
CCB) 都 遵守 配置 管理 规范 ， 质 量 保证 人 员 要 定期 审计 配置 管 
理工 作 。 配 置 审计 是 一 种 “过 程 质量 检查 ”活动 ， 是 质量 保证 
人 员 的 工作 职责 之 一 。 

配置 管理 不 同 于 传统 的 资产 管理 ， 具 体 的 区 别 如 表 1-1 所 示 。 


表 1-1 配置 管理 与 资产 管理 的 区 别 





配置 管理 资产 管理 
提供 IT 环境 的 逻辑 模型 ， 为 ITIL | 管理 IT 资产 在 整个 生命 周期 内 的 成 本 及 变 
流程 提供 数据 依据 化 情况 





相关 的 ITIL 流程 可 以 提高 服务 稳 
定性 和 质量 

配置 项 是 从 运 维 的 角度 出 发 , 标识 
的 是 IT 部 件 

如 果 需 要 保证 某 个 资产 稳定 运行 ， 
可 将 其 作为 配置 项 管理 

维护 CI 项 之 间 的 复杂 关系 ， 以 便 
进行 风险 评估 


可 以 降低 资产 的 总 体 成 本 , 减少 采购 成 本 ， 
增加 资产 的 利用 率 ， 提 供 准确 的 资产 规划 


资产 是 基于 价值 、 合 同 跟踪 管理 的 IT 部 件 
如 果 某 个 配置 项 需要 跟踪 其 成 本 、 合 同 及 
使 用 信息 ， 可 以 作为 资产 进行 管理 


维护 资产 之 间 基 本 的 关联 关系 ， 如 父子 关 
系 等 








1.1.2 ”应 用 软件 配置 
软件 配置 管理 的 最 终 目 标 是 管理 软件 产品 。 由 于 软件 产品 是 在 用 户 





不 断 变化 的 需求 驱动 下 不 断 变化 , 为 了 保证 对 产品 有 效 地 进行 控制 和 追 
Vu. 配置 管理 过 程 不 能 仅仅 对 静态 的 、 成 形 的 产品 进行 管理 ,更 重要 的 
是 对 动态 的 、 成 长 的 产品 进行 管理 。 由 此 可 见 ， 配 置 管理 同 软件 开发 过 
程 紧密 相关 。 配置 管理 必须 紧 扣 软件 开发 过 程 的 各 个 环节 ， 即 管理 用 户 
所 提出 的 需求 , 监控 其 实施 ， 确 保 用 户 需 求 最 终 落 实 到 产品 的 各 个 版 本 
中 去 ， 并 在 产品 发 行 和 用 户 支 持 等 方面 提供 帮助 ， 响 应 用 户 新 的 需求 ， 
推动 新 的 开发 周期 。 通 过 配置 管理 过 程 的 控制 , 用 户 对 软件 产品 的 需求 
如 同 普通 产品 的 订单 一 样 ,遵循 一 个 严格 的 流程 ,经 过 一 条 受 控 的 生产 
流水 线 ， 最 后 形成 产品 ， 发 售 给 相应 用 户 。 从 另 一 个 角度 看 ， 在 产品 开 
发 的 不 同 阶段 通常 有 不 同 的 任务 ， 由 不 同 的 角色 担当 , 各 个 角色 职责 明 
确 ， 泾 渭 分 明 ， 但 同时 又 前 后 衔接 ， 相 互 协调 。 


1.1.3 ”硬件 配置 
硬件 配置 管理 包括 服务 器 、 网 络 、 安 全 等 设备 以 及 电源 、 机 柜 等 关 


联 的 基础 设施 , 也 包括 与 其 支撑 的 应 用 系统 之 间 的 关系 。 表 1-2 和 表 1-3 
分 别 描述 了 通用 应 用 设备 配置 项 模型 示例 及 与 其 他 配置 项 的 关系 。 


表 1-2 硬件 配置 管理 模型 示例 设备 类 ) 


5» 名 | coum | 数据 类 型 |  & x 


主 








设备 名 |DEVNAME string 

序列 号 

资产 编码 行政 部 用 

采购 合同 编号 关联 采购 合同 
大 类 ，PC 服务 器 、 

设备 类 别 CATEGORY lookup 小 型 机 、 安 全 设备 、 
机 房 设 备 等 
具体 类 型 ,小 型 机 、 

设备 类 型 存储 、 扩 展柜 、 磁 
盘 阵 列 、 交 换 机 等 
张江 生产 、 张 江 模 
拟 、 北 京 灾 备 、 托 管 

环境 机 房 、 张 江 库存 等 ， 
第 一 阶段 先 录 入 生 
产 和 模拟 信息 

制造 厂商 MANUFACTURE FACTORY 





型 号 MODELID 








不 断 变化 的 需求 驱动 下 不 断 变化 , 为 了 保证 对 产品 有 效 地 进行 控制 和 追 
Vu. 配置 管理 过 程 不 能 仅仅 对 静态 的 、 成 形 的 产品 进行 管理 ,更 重要 的 
是 对 动态 的 、 成 长 的 产品 进行 管理 。 由 此 可 见 ， 配 置 管理 同 软件 开发 过 
程 紧密 相关 。 配置 管理 必须 紧 扣 软件 开发 过 程 的 各 个 环节 ， 即 管理 用 户 
所 提出 的 需求 , 监控 其 实施 ， 确 保 用 户 需 求 最 终 落 实 到 产品 的 各 个 版 本 
中 去 ， 并 在 产品 发 行 和 用 户 支 持 等 方面 提供 帮助 ， 响 应 用 户 新 的 需求 ， 
推动 新 的 开发 周期 。 通 过 配置 管理 过 程 的 控制 , 用 户 对 软件 产品 的 需求 
如 同 普通 产品 的 订单 一 样 ,遵循 一 个 严格 的 流程 ,经 过 一 条 受 控 的 生产 
流水 线 ， 最 后 形成 产品 ， 发 售 给 相应 用 户 。 从 另 一 个 角度 看 ， 在 产品 开 
发 的 不 同 阶段 通常 有 不 同 的 任务 ， 由 不 同 的 角色 担当 , 各 个 角色 职责 明 
确 ， 泾 渭 分 明 ， 但 同时 又 前 后 衔接 ， 相 互 协调 。 


1.1.3 ”硬件 配置 
硬件 配置 管理 包括 服务 器 、 网 络 、 安 全 等 设备 以 及 电源 、 机 柜 等 关 


联 的 基础 设施 , 也 包括 与 其 支撑 的 应 用 系统 之 间 的 关系 。 表 1-2 和 表 1-3 
分 别 描述 了 通用 应 用 设备 配置 项 模型 示例 及 与 其 他 配置 项 的 关系 。 


表 1-2 硬件 配置 管理 模型 示例 设备 类 ) 


5» 名 | coum | 数据 类 型 |  & x 


主 








设备 名 |DEVNAME string 

序列 号 

资产 编码 行政 部 用 

采购 合同 编号 关联 采购 合同 
大 类 ，PC 服务 器 、 

设备 类 别 CATEGORY lookup 小 型 机 、 安 全 设备 、 
机 房 设 备 等 
具体 类 型 ,小 型 机 、 

设备 类 型 存储 、 扩 展柜 、 磁 
盘 阵 列 、 交 换 机 等 
张江 生产 、 张 江 模 
拟 、 北 京 灾 备 、 托 管 

环境 机 房 、 张 江 库存 等 ， 
第 一 阶段 先 录 入 生 
产 和 模拟 信息 

制造 厂商 MANUFACTURE FACTORY 





型 号 MODELID 





续 表 











列 名 COLUMN 备 注 

DELL 是 快速 服务 代 

其 他 标号 或 快 rere #3, IBM PC SERVER 

速 维修 编号 是 MT S, IBM 小 
型 机 是 TYPE 号 

设备 负责 岗位 MANAGER 

购买 日 期 PURCHASE DATE 

设备 价格 PRICE 采购 价格 

维 保 开 始 日 期 | Maintenance StartDate 非 必 填 





维 保 结束 日 期 | Maintenance StopDate 
维 保级 别 Maintenance Level 


维 保 厂 商 Maintenance Company 


维 保 合同 号 ”| Maintenance_ContractNO 关联 维 保 合同 


字典 里 列 出 可 选 状 
状态 STATUS lookup 态 ， 包 括 库存 、 在 
线 、 停 用 、 报 废 等 


标注 非 机 柜 位 置 ， 
如 ECC、 库 房 





其 他 位 置 LOCATION2 string 








备注 REMARK string 


表 1-3 ”硬件 配置 管理 模型 示例 〈 设 备 与 其 他 配置 项 的 关系 ) 





关 系 说 明 描述 
设备 -合同 Contract Contains Device 
设备 -设备 Device Attached Device 
设备 -电源 Device Uses Power 
设备 -位 置 Device Uses Location 

1. 服务 器 配置 


服务 器 设备 配置 管理 包括 其 自身 的 属性 以 及 其 支撑 的 服务 之 间 的 
关系 管理 。 表 1-4 描述 了 服务 器 设备 配置 模型 示例 ， 表 1-5 描述 了 服务 
器 与 其 他 配置 项 的 关系 。 


表 1-4 服务 器 配置 模型 示例 








列 名 COLUMN 备 注 
服务 器 名 NAME string 设备 的 设备 名 
微 码 版 本 FIRMWARE string 
CPU 型 号 CPU TYPE string 





CPU 核心 频率 | CPU FREQUENCY string 


CPU 物理 个 数 | CPU NUM 














COLUMN 数据 类 型 
总 物理 CPU 核 . 
心 数 CPU CORE NUM integer 


内 存 型 号 MEM TYPE string 














Kx: 1Gx2+2Gx2， 表 

示 容 量 x 数 量 

内 存 可 用 容量 | MEM SIZE integer 根据 组 成 自动 计算 
格式 : 146Gx2 (RAID1) 

硬盘 组 成 EUM string *300Gx2 (RAID1), X 
示 容 量 x 数 量 (RAID) 

硬盘 可 用 容量 | DISK_ SIZE integer 根据 组 成 自动 计算 


2 ， 表 示 


光纤 卡 组 成 | HBACARD 1x2 +2x1, 表示 口 数 x 块 数 
STATUS i 
REMARK i 


内 存 组 成 MEM SIZE string 

























2. 网 络 设备 配置 


网 络 设备 配置 管理 包括 其 自身 的 属性 以 及 其 支撑 的 服务 之 间 的 关 
系 管理 。 表 1-6 描述 了 网 络 设备 配置 模型 示例 ， 表 1-7 描述 了 网 络 设备 
配置 与 其 他 配置 项 的 关系 。 


表 1-6 网 络 设备 配置 模型 示例 
列 名 COLUMN 数据 类 型 备 注 





设备 名 NAME string 设备 的 设备 名 
管理 人 P 地 址 | Manage IP ADDR string 
所 在 位 置 LOCATION string 
用 途 USAGE string 
使 用 区 域 ENVIRONMENT string 
CASE 合同 号 reference 关联 case 合同 
停产 日 期 STOP PRODUCT DATE string 
服务 支持 停止 
时 间 




















SUPPORT END DATE string 


























列 名 COLUMN & Žž 

维 保级 别 SERVICE LEVEL 

集成 商 INTEGRATOR NAME 

生产 厂商 MANUFACTURER 

管理 岗位 MANAGER 

OS 版 本 OS VERSION reference 
字典 里 列 出 可 选 状态 ， 
包括 在 用 在 保 、 在 用 

使 用 状态 STATUS 过 保 、 在 用 不 保 、 本 
地 库房 、 异 地 库房 、 
报废 等 

备注 REMARK 

R17 网 络 设备 与 其 他 配置 项 的 关系 
关 系 关系 类 型 说 明 描述 
网 络 设备 -交换 机 接口 1: N NetDevice Contains Switch Ports 
网 络 设备 -网 络 设备 路 由 LN Network. Device: Routing RunsOn 
NetDevice 

网 络 设 备 -NAT 策略 1: N NATPolicy DeployedOn NetDevice 

路 由 器 -广域网 线路 N: 1 WAN Line DeployedOn Router 

AS 交换 机 -局 域 网 接口 1: N Switch Ports Connects AS Switch 

DS 交换 机 -局 域 网 接口 1: N Switch Ports Connects DS Switch 

CS 交换 机 -局 域 网 接口 1: N Switch Ports Connects CS Switch 

网 络 设备 -网 络 设备 OS N: N NetDevice Uses NetOS 


3. 安全 设备 配置 





安全 设备 配置 管理 包括 其 自身 的 属性 以 及 其 支撑 的 服务 之 间 的 关 
系 管 理 。 表 1-8 描述 了 安全 设备 配置 模型 示例 ， 表 1-9 描述 了 安全 设备 














与 其 他 配置 项 的 关系 。 
表 1-8 安全 设备 配置 模型 示例 
列 名 COLUMN 备 注 
设备 名 SDName Teference 设备 的 设备 名 
管理 地 址 MANAGE IP string 
管理 终端 地 址 HOST IP string 
IOS 版 本 IOS VERSION string 
Vrid 值 Vrid string 
模块 型 号 MODULE NUM string 
模块 序列 号 MODULE SN string 








续 表 














5» 名 数据 类 型 | & x 
网 管 地 址 NET MANAGE IP string 
NTP 地 址 NTP IP string 
日 志 地 址 LOG IP string 
审计 地 址 AUDIT IP string 
密码 PWD string 
接口 数量 PORT NUM integer 





已 建立 TCP 连接 超时 


时 间 


时 间 


时 间 


UDP 连接 超时 时 间 integer 
连接 完整 性 是 否 启用 


快速 连接 重用 是 否 启用 string 


TCP SYN integer 
ITY 





TCP ESTED integer 


SESSION INTEGR : 
string 








状态 lookup 设备 的 状态 

备注 string 设备 的 备注 
表 1-9 安全 设备 与 其 他 配置 项 的 关系 

关 系 说 明 描 述 

安全 设备 -防火 墙 s : 

策略 FireWallPolicy DeployedOn SecurityDevice 

安全 设备 -安全 设 SecurityDevice Contains Eth. Ports 

# ETH O 

安全 设备 -IP SecurityDevice Uses IP 





12 ”配置 管理 方法 


数据 中 心 在 运 维 过 程 中 , 经 常 要 对 配置 项 信息 进行 新 增 、 删 除 或 者 
修改 操作 ， 以 确保 CMDB 中 的 各 个 配置 项 信息 都 是 最 新 的 。 利 用 该 配 
置 管理 工具 将 ITIL 体系 中 的 变更 管理 流程 、 发 布 管理 流程 与 配置 管理 
流程 无 颖 地 结合 在 一 起 , 确保 生产 运 维 过 程 中 配置 信息 的 连续 性 、 可 用 
性 和 实时 性 。 变 更 实施 人 在 变更 实施 之 前 ， 需 要 在 配置 管理 工具 中 的 
CMDB 变更 流程 控制 模块 下 ， 填 妥 配 置 项 变更 申请 表 ， 表 中 应 包含 配置 


项 变更 原 





因 











、 变 更 描述 、 变 更 后 配置 项 信息 以 及 与 之 相关 联 的 服务 台 变 


更 单 号 。 随 后 该 配置 项 变更 申请 表 将 由 相关 审核 人 员 进 行 审核 , MRE 


I 
qu 


更 申请 未 被 审核 人 员 批准 , 那么 变更 实施 人 员 需 取消 该 变更 或 者 重新 提 
交 变更 申请 , 如 果 变 更 申请 通过 审核 则 实施 人 员 在 变更 时 间 窗 口内 实施 
变更 ,并 在 变更 实施 完毕 后 ,提请 相关 人 员 进 行 变更 结果 评价 。 如 果 该 
变更 被 评价 为 实施 成 功 , 则 触发 配置 管理 流程 , CMDB 管理 员 依 据 变 更 
记录 表 中 记录 的 变更 后 配置 项 信息 来 维护 CMDB 中 相关 的 配置 项 信息 
修改 完毕 后 发 布 当前 正确 的 配置 项 集合 。 如 果 变 更 评价 显示 该 变更 未 成 
功 实施 或 实施 后 的 结果 未 被 审核 人 员 评价 通 过 , 则 触发 变更 回 退 机 制 并 
且 相 关 配 置 项 信息 不 作 更 改 。 


1.2.1 配置 流程 


配置 管理 遵循 以 下 原则 。 


a 


a 


按照 统一 的 分 类 原则 和 属性 关系 定义 构建 CMDB,, 按 统一 的 配 
置 管理 流程 进行 配置 项 的 管理 ,按照 统一 的 配置 审核 计划 进行 
审核 。 

各 配置 管理 员 根 据 统 一 的 配置 项 分 类 原则 分 别 识别 需要 纳入 
配置 管理 的 配置 项 ,按照 统一 的 配置 项 分 类 属性 收集 相关 配置 
信息 ， 负 责 维护 和 更 新 配置 信息 。 

各 配置 管理 员 负 责 提 供 配置 项 管理 情况 ， 由 配置 流程 经 理 负责 
编写 汇总 的 报告 。 


为 保证 CMDB 信息 的 正确 性 ， 需 要 定期 及 不 定期 对 配置 信息 进行 





审核 。 

口 ”、 定 期 审核 至 少 每 半年 进行 一 次 , 将 依据 内 审 管理 制度 及 配置 审 
核 计 划 对 CMDB 与 实际 情况 进行 审核 。 

OQ “每 年 的 配置 项 审核 要 做 到 配置 项 分 类 全 覆盖 。 

O “不 定期 审核 在 以 下 情况 发 生 : 重大 变更 、 发 布 前 后 ; 客户、 外 
部 监管 机 构 要 求 ， 执行 连续 性 计划 恢复 服务 后 。 

OQ 若 在 配置 审核 或 日 常 工作 中 发 现 配 置 项 信息 与 实际 情况 不 一 
致 , 应 尽快 对 配置 信息 进行 纠正 , 纠正 的 历史 信息 应 可 被 追溯 。 

配置 基线 管理 策略 如 下 所 示 。 


口 
口 


口 


CMDB 建立 后 需要 制定 首 个 配置 基线 。 

制定 配置 基线 的 频率 : 应 通过 备份 的 方式 ， 确 保 变更 实施 前 的 
相关 配置 项 信息 可 以 被 追溯 。 

配置 基线 保留 期 限 一 般 为 一 年 ， 可 视 查 询 需 求 调整 ， 配 置 基线 
应 有 备份 。 


配置 项 权限 控制 策略 如 下 所 示 。 


a 


CMDB 结构 〈 分 类 、 属 性 、 关 系 等 结构 ) 增删 改 权限 : 配置 流 
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程 经 理 经 部 门 负责 人 授权 后 可 以 修改 CMDB 的 结构 。 

口 配置 项 信息 增删 改 权 限 : 配置 管理 员 拥 有 职能 范围 对 应 分 类 的 
配置 项 的 增删 改 权 限 。 

软件 介质 的 管理 策略 如 下 所 示 。 

口 纳入 CMDB 管理 的 软件 类 配置 项 所 使 用 的 安装 介质 ， 均 需 集 
中 存放 在 安全 的 物理 位 置 中 ， 由 专人 统一 管理 。 


1. 配置 管理 基本 流程 
配置 管理 基本 流程 包括 策划 、 识 别 配 置 项 、 维 护 、 审 核 及 回顾 流程 































































































等 ， 如 图 1-1 所 示 。 
REESE 
策划 识别 维护 审核 回顾 
2 
部 门 负责 人 d 
a: 
| | 
1 来 通过 6 
本 GED ga ^" (= 
H az [— 
CMDB8 架 构 、 
识别 配置 项 — | | 
' 5 
' | 配置 审核 子 
E : mp MDA GD 
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关联 流程 re 















































图 1-1 配置 管理 基本 流程 
配置 管理 的 流程 步骤 描述 如 表 1-10 所 示 。 
表 1-10 配置 管理 流程 步骤 描述 


SR EEE: 输 出 
配置 流程 经 理 组 织 制定 
或 修订 配置 管理 相关 定 

CD 制定 /修订 | ssa | 义 及 策略 ， 包 括 配置 管理 

配置 管理 策略 | 配置 管理 要 求 | 的 范围 、 结 构 规划 、 审 核 | 配置 管理 策略 


策略 等 ， 并 接受 部 门 负责 
人 的 审阅 确认 

部 门 负责 人 对 配置 流程 经 
理 提出 的 配置 管理 策略 新 | 审批 通过 的 配置 
增 /修订 内 容 进 行 审批 ， 审 | 管理 策略 变更 申 
批 通过 进入 下 一 步骤 ， 否 | 请 表 

则 退回 上 一 步骤 重新 修订 








(2) 审批 配置 | 配置 管理 策略 
管理 策略 





id 















































e— 1 2 
续 表 
步 m | X 给 出 
O 配置 流程 经 理 负责 按 
照 配置 管理 策略 建立 (或 
更 新 ) CMDB 架构 ， 
(3) 建立 /更 新 
、 | 审批 通过 的 配 | @ 配置 管理 员 在 CMDB 
CMDB QR 信息 
Mehl 置 管理 策略 | 架构 之 下 ， 搜 集 需要 新 增 | 舍 更 新 的 配置 信 
(或 更 新 ) 的 配置 项 、 配 
置 项 属性 及 配置 项 关联 
关系 等 信息 
根据 “配置 更 新 维护 子 流 
D 配置 更 新 | 待 更 新 的 配置 | 根 和 
维护 子 流程 信息 ID TET 更 新 后 的 CMDB 
G) 配置 审核 配置 流程 经 再 按照 “配置 " 
子 流程 配置 审核 策略 | 审核 流程 ”发 起 配置 审核 | 配置 审核 报告 
配置 流程 经 理 依照 服务 
X | 报告 管理 流程 的 要 求 ， 定 
oo Bl 期 对 配置 管理 流程 进行 | 配置 管理 报告 
回顾 ， 识 别 改 进 机 会 ， 编 
制 配置 管理 报告 
2. 配置 管理 更 新 维护 子 流程 
配置 管理 更 新 维护 子 流程 包括 实施 与 复核 ， 如 图 1-2 所 示 。 
配置 更 新 维护 子 流程 
xi mm y 
1 
配置 管理 员 = 2 
S 更 新 CMDB 
4 
| 
PEMA | 12 ag Dots 
1 
| i 
配置 审核 流程 配置 审核 流程 


















































图 1-2 配置 管理 更 新 维护 子 流程 


配置 更 新 维护 子 流程 的 步骤 包括 提交 配置 项 更 新 申请 、 更 新 CMDB 
和 复核 ， 详 细 描 述 如 表 1-11 所 示 。 
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表 1-11 配置 更 新 维护 子 流程 步骤 描述 


以 下 两 种 情况 下 可 以 进 
行 CMDB 的 更 新 : 

(D 在 变更 中 主动 更 新 
配置 项 ; 

Q 在 配置 审核 流程 或 日 | 变更 单 中 的 配置 
常 工作 中 如 发 现 CMDB | 变更 信息 

中 配置 项 信息 错误 ， 或 
日 常 工作 中 需 在 变更 流 
程 管控 范围 以 外 新 增 、 
修改 配置 项 

配置 管理 员 按 配置 项 变 
更 申请 内 容 更 新 CMDB 
配置 复核 人 对 配置 管理 
员 更 新 的 CMDB 进行 复 
核 ， 在 确认 信息 准确 之 
后 正式 完成 CMDB 更 
新 ， 其 中 : 

(D 如 复核 通过 , 将 更 新 | 复核 过 的 CMDB 
结果 反馈 给 配置 审核 流 
程 或 变更 管理 流程 ， 流 
程 结束 ; 

@ 如 复核 未 通过 , 则 回 
到 步骤 (2) 





CD 提交 配置 项 | CMDB 配置 项 
更 新 申请 


(2) 更 新 CMDB 更 新 的 CMDB 


变更 单 中 的 配 
置 变更 信息 或 


(3) 复核 





3. 配置 审核 子 流程 


配置 审核 子 流程 包括 发 起 配置 审核 、 实 施 审 核 、 得 出 报告 ,详细 内 
容 如 图 1-3 所 示 。 






















































































配置 审核 子 流程 
准备 | 实施 报告 

EC praan | ss 有 

配置 审核 员 aetas | 
i x scan 
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图 1-3 配置 审核 子 流程 


配置 审核 子 流程 步骤 依次 包括 发 起 配置 审核 、 审 核 配置 信息 、 反 馈 
审核 结果 、 编 写 配 置 审核 报告 ， 详 细 描述 如 表 1-12 所 示 。 


表 1-12 配置 审核 子 流程 步骤 描述 
步 m 步骤 描述 


输 出 





配置 流程 经 理 组 织 发 起 配置 
(1) 发 起 配 审核 制订 审核 计划 ,落实 本 
置 审核 次 审核 范围 和 抽样 比例 ,确定 
配置 审核 员 
OQ 配置 审核 员 根 据 审核 计 
划 ， 对 CMDB 配置 项 属性 、 
关联 关系 等 信息 的 正确 性 进 
配置 审核 计划 | 行 检查 ， 并 记录 检查 结果 ; 
@ 配置 管理 员 和 各 组 负责 人 
实际 情况 配合 配置 审核 员 开 
展 审 核 工作 


G) 反馈 审 配置 审核 员 将 审核 结果 反馈 
结 
核 结果 配置 审核 结果 | 给 相关 人 员 进行 确认 


配置 流程 经 理 根据 审核 结果 ， 
分 析 差 异 原 因 ， 提 出 改进 要 
(4) 编写 配 求 ， 形 成 配置 审核 报告 ， 同 时 
结 
置 审核 报告 SUPERE 要 求 相 关 人 员 按 照 配置 更 新 
维护 流程 修正 配置 项 信息 ， 并 
反馈 修改 结果 


(2) 审核 配 
置信 息 


1.2.2 配置 自动 发 现 





配置 审核 计划 


配置 审核 结果 


书面 审核 结果 


配置 审核 报告 


随 着 “互联 网 +” 新 形势 的 发 展 ， 越 来 越 多 的 企业 步 入 双 态 TT CHI 


稳定 态 IT 和 敏捷 态 IT) 时 代 ， 信 息 化 环境 越 来 越 复杂 ， 


企业 急需 建立 


一 套 合适 的 配置 管理 库 〈CMDB )， 像 人 类 “大 脑 ” 一 样 统一 存储 从 基 
础 架构 到 业务 应 用 各 层面 的 配置 信息 ， 以 便 协 调 “身体”( 运 维系 统 ) 


各 部 分 完成 复杂 的 运 维 工作 。 


CMDB 是 运 维 中 最 难 建设 好 的 部 分 ， 是 运 维 人 的 最 痛 点 。CMDB 
建设 有 三 大 难点 : 一 是 配置 项 识别 ;， 二 是 配置 管理 模型 的 创建 与 维护 ; 
三 是 保证 配置 数据 的 持续 更 新 。 当 前 业界 主要 靠 流 程控 制 、 人 工 维护 和 
自动 发 现 解决 数据 鲜 活 、 准 确 的 问题 。 流程 控制 和 人 工 维 护 都 摆脱 不 了 
人 的 参与 ， 这 就 意味 着 会 “偷懒 ” 会 出 错 。 在 这 个 信息 爆炸 的 大 数据 
时 代 ， 再 依靠 人 肉 运 维 ， 配 置 管理 很 难 持续 。 所 以 ， 要 想 数 据 准确 ， 关 


键 还 是 要 靠 自动 发 现 。 
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1.3 配置 管理 工具 
1.3.1 CMDB 数据 库 介 绍 与 实践 


CMDB 全 称 Configuration Management Database， 即 配置 管理 数据 
库 。CMDB 存储 与 管理 企业 IT 架构 中 设备 的 各 种 配置 信息 ， 它 与 所 有 
服务 支持 和 服务 交付 流程 都 紧密 相 联 , 支持 这 些 流 程 的 运转 、 发 挥 配置 
信息 的 价值 ,同时 依赖 于 相关 流程 保证 数据 的 准确 性 。 在 实际 的 项 目 中 ， 
CMDB 常常 被 认为 是 构建 其 他 ITIL 流程 的 基础 而 优先 考虑 ，ITIL 项 目 
的 成 败 与 是 否 成 功 建立 CMDB 有 非常 大 的 关系 。 

由 于 CMDB 是 ITIL 流程 支持 的 核心 ， 它 需要 为 ITIL 其 他 流程 提 
ft IT 服务 及 基础 架构 层面 的 配置 信息 ,所 以 只 有 CMDB 记录 的 数据 完 
整 ， 才 能 准确 地 反映 IT 服务 的 真实 状态 。 而 所 谓 CMDB 的 完整 ， 包 含 
了 配置 管理 范围 的 识别 、CI (Configuration Item, MAT) 属性 的 选取 
和 CI 关系 的 构建 。CMDB 的 建设 包含 以 下 几 个 步骤 。 


1. 确定 配置 管理 的 范围 


这 主要 涉及 CI 的 宽度 和 深度 , 以 及 CI 的 生命 周期 。 需 要 说 明 的 是 ， 
ITIL 规范 认为 ,CI 的 生命 周期 是 从 CI 的 接收 到 最 终 报废 退出 的 全 过 程 ， 
但 在 具体 实施 过 程 中 ， 由 于 流程 管理 主体 的 差异 化 ， 不 同 项 目 对 CI 生 
命 周期 的 划分 和 定义 会 有 所 不 同 。 

在 确定 CI 的 宽度 和 深度 时 ， 设 计 者 应 当 从 企业 IT 服务 的 需求 、 企 
W TT 服务 管理 水 平和 CMDB 运营 管理 成 本 3 个 方面 进行 合理 规划 。 具 
体 来 说 ，CMDB 构建 应 该 主要 从 IT 服务 角度 考虑 ，IT 服务 本 身 也 可 以 
作为 CI 记录 到 CMDB, FAIRY IT 服务 涉及 的 IT 基础 架构 及 其 相关 的 
重要 信息 都 应 记录 到 CMDB P; 必须 认识 到 CMDB 与 企业 IT 服务 管 
理 水 平 之 间 紧 密 的 联动 。 企 业 IT 服务 管理 水 平 越 高 ， 其 对 CMDB 的 依 
赖 程度 也 随 之 上 升 ， 对 CMDB 数据 的 准确 性 和 完整 性 要 求 也 越 高 。 同 
时 ,企业 变更 管理 的 成 熟 度 , 包括 变更 管理 范围 和 流程 执行 力度 也 将 在 
很 大 程度 上 影响 CMDB 数据 的 准确 性 和 完整 性 ， 成 本 方面 ，CI 的 颗粒 
度 决定 CMDB 中 信息 的 详细 程度 , 而 这 些 信息 的 有 效 维护 取决 于 IT 部 
门 投入 的 管理 成 本 。 如 果 无 法 投入 相应 资源 进行 CMDB 的 维护 ， 其 数 
据 准确 性 便 无 法 保证 ， 也 无 法 发 挥 其 应 有 价值 。 

CI 生命 周期 的 确定 主要 包含 对 以 下 两 个 问题 的 确定 。 

口 什么 时 候 识别 CI 并 记录 到 CMDB. 在 标准 的 配置 管理 流程 中 ， 


CI 全 生命 周期 的 理想 状态 应 该 覆盖 从 采购 申请 到 报废 退出 的 
过 程 。 但 在 实际 实施 时 ， 流 程 执 行 主体 的 管理 范围 和 职责 将 决 
定 CI 被 识别 的 时 间 点 。 

O 什么 时 候 删 除 CI 记录 。 这 一 时 间 点 同样 由 流程 执行 主体 的 管 
理 范围 和 职责 所 决定 。 例 如 ， 对 于 租赁 的 CL IT 部 门 并 不 关 
心 它 的 报废 过 程 ， 只 关心 其 在 生产 环境 中 的 运营 状况 ， 因 此 
CI 被 租赁 公司 更 换 ， 则 该 记录 就 有 可 能 被 标记 为 删除 。 而 CI 
记录 的 删除 并 不 是 数据 的 真正 删除 ， 而 是 将 其 标记 为 删除 ， 这 
样 做 的 目的 是 为 IT 审计 提供 数据 支持 。 


2. 定义 配置 项 的 属性 


对 于 同一 类 型 CI 属性 的 定义 , 不 同 企业 的 定义 方法 可 能 截然 不 同 。 
通常 情况 下 ,设计 者 需要 遵循 一 个 原则 和 一 套 结构 。 一 个 原则 就 是 “ 精 
WKS”. 如果 将 大 量 属性 纳入 CMDB， 那 么 无 疑 将 加 大 信息 维护 的 成 
A. RZ, 如 果 属 性 过 少 , CMDB 对 流程 支持 的 有 效 性 就 降低 了 。 所以， 
所 谓 “ 精 而 不 多 ”就 是 找到 适合 自身 需求 的 平衡 点 。ITIL 专家 指出 ， 
CI 属性 的 定义 要 注重 选择 的 属性 是 否 具备 “面向 服务 的 特性 ”。 例 如 ， 
一 台 商 用 服务 器 可 能 会 包含 上 百 个 属性 , 但 实际 上 经 过 筛选 , 对 企业 有 
实际 意义 往往 是 CPU 个 数 、CPU 主 频 、 内 存 、 硬 盘 、 网 卡 等 信息 。 

一 套 结 构 指 的 是 ， 通 常 可 以 把 一 个 CI 的 属性 分 为 五 大 来 源 。 具 体 
的 划分 方法 如 表 1-13 所 示 。 

表 1-13 配置 项 五 大 来 源 














来 Ñ 举例 
需要 记录 的 配置 项 (CI) AS | 品牌 、 型 号 、 所 在 位 置 、 用 途 、IP、 功 率 等 
IT 资产 维护 需要 供应 商 、 购 买 日 期 、 维 保 信息 
IT 服务 财务 管理 需要 成 本 、 收 费 
IT 服务 管理 流程 需要 性 能 信息 、 配 置信 息 、 安 全 等 级 、 容 错 能 力 等 








配置 项 (CD 管理 需要 
3. 构建 CI 之 间 的 关系 


CI 关系 的 定义 也 是 配置 管理 建设 与 IT 资产 管理 建设 的 区 别 之 一 。 
一 般 可 以 采取 两 种 方法 进行 CI 关系 的 梳理 工作 , 即 “ 自 上 而 下 ”和 “ 自 
下 而 上 ”的 方法 。“ 自 上 而 下 ”通常 要 求 企业 先 明确 对 外 提供 的 服务 目 
录 ， 然 后 基于 服务 目录 按照 “业务 服务 一 IT 服务 一 IT 系统 一 IT HEU 
的 顺序 进行 梳理 ;“ 自 下 而 上 ” 则 是 逆流 而 上 ， 先 从 对 内 部 IT 组件 关系 
的 梳理 开始 ， 然 后 逐步 将 IT 组 件 映 射 到 IT 服务 。 


管理 信息 ， 如 配置 分 类 、CI 名 称 、CI 状态 等 
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上 线 后 的 CMDB 需要 向 ITSM 系统 提供 准确 的 配置 管理 数据 ， 尤 
其 是 要 做 到 所 记录 信息 与 生产 环境 的 数据 保持 一 致 , 这 就 需要 建立 一 套 
良好 的 配置 管理 运作 机 制 。 这 套 机 制 包 含 了 制定 配置 管理 策略 、 确 定 变 
更 /发 布 与 配置 之 间 的 流程 关系 、 制 定 CMDB 审计 流程 ， 以 及 配置 管理 
的 角色 安排 等 工作 。 流 程 运作 上 需 保 证 以 下 几 个 步骤 的 正常 运行 。 
(1) 配置 管理 政策 的 制定 
该 政策 是 企业 配置 管理 的 行动 指南 和 共同 纲领 。 它 能 够 帮助 企业 统 
一 认识 ， 减 少 不 必 要 的 沟通 成 本 ， 实 现 流程 的 高 效 执行 。 配 置 管理 政策 
主要 包含 宏观 政策 和 运营 政策 。 其 中 ， 宏 观 政 策 涉及 企业 或 IT 部 门 层 
面 指导 性 、 方 向 性 的 政策 ， 目 标 是 在 企业 内 部 形成 统一 认识 。 例 如 ，IT 
部 门 应 该 使 用 统一 的 配置 管理 流程 ， 并 且 使 用 标准 的 文档 记录 和 汇报 
机 制 。 
运营 政策 主要 涉及 流程 目标 、 人 员 、 输 入 、 输 出 、 活 动 以 及 KPI 
(关键 绩效 指标 ) 等 要 素 ， 以 及 流程 之 间 相 互 协调 、 信 息 交 互 方面 的 指 
导 原 则 ， 其 目标 是 使 流程 能 够 在 政策 的 指引 下 稳健 、 有 效 地 执行 。 一 般 
而 言 ， 包 括 CI 的 命名 规范 政策 、CMDB 数据 保留 政策 ， 以 及 数据 备份 
和 恢复 政策 等 。 
(2) 确定 流程 间 的 接口 关系 
要 实现 CMDB 的 有 效 运 作 ， 成 熟 的 变更 /发 布 管理 流程 必 不 可 少 。 
其 原因 是 ， 这 一 流程 掌握 着 CMDB 中 数据 变更 的 通行 证 。 变 更 /发 布 管 
理 流程 与 CMDB 更 新 之 间 的 关系 如 下 。CMDB 数据 的 任何 变更 都 应 该 
对 应 已 批准 的 变更 请 求 单 。 同 时 ， 由 变更 管理 流程 将 变更 信息 提供 给 负 
责 配置 管理 的 相关 人 员 进 行 CMDB 数据 的 更 新 。 其 中 ，CMDB 数据 的 
更 新 主要 包括 以 下 3 种 情况 。 
O CMDB 数据 结构 的 变更 ,通常 发 生 在 因 管 理 需 要 而 重 构 CMDB 
模型 的 情况 下 , 例如 新 增 需 进行 变更 控制 而 未 识别 的 CIL 因 服 
务 调整 而 重新 梳理 CI 间 的 关系 等 。 
O 新 增 或 删除 CI。 即 指 对 已 有 CI 的 操作 , 例如 更 换 或 报废 设备 ， 
新 采购 标准 的 配置 等 。 从 方便 管理 的 角度 出 发 ,IT 服务 供应 商 
往往 会 制定 标准 配置 清单 ， 用 户 应 根据 实际 关系 需求 ， 确 定 配 
置 清单 颗粒 细节 的 符合 度 。 
O 修改 CI 的 属性 。 此 类 变更 是 针对 某 CI 具体 属性 的 操作 ， 例 如 
增加 了 某 服务 器 CI 的 硬盘 容量 ， 就 需要 对 其 相应 属性 进行 调 
整 。 需 要 注意 的 是 ，CI 属性 的 变更 通常 会 关联 到 其 他 CI 属性 
的 调整 。 例 如 ， 硬 盘 CI 信息 变更 时 ， 管 理 员 还 需要 调整 服务 


器 CI 的 属性 ， 无 疑 将 会 增加 数据 维护 的 成 本 。 针 对 这 一 问题 ， 
建议 企业 在 确定 CI 属性 数据 时 ， 尽 可 能 地 从 其 他 可 靠 数 据 源 
中 获取 。 例如， 可 以 将 服务 器 需要 的 硬盘 容量 属性 数据 通过 数 
据 继 承 关系 ， 从 硬盘 CI 本 身 的 属性 中 获取 。 
(3) CMDB 审计 流程 的 制定 
在 确保 CMDB 变更 准确 性 的 前 提 下 ， 变 更 管理 流程 的 构建 需要 经 
历 一 个 持续 改进 的 过 程 。 用 户 往 往 会 遇 到 CMDB 数据 仍 与 实际 环境 不 
符 的 问题 ， 这 就 需要 通过 审计 流程 来 进行 检查 、 分 析 和 修订 。 
CMDB 审计 过 程 中 需要 注意 的 是 ， 首 次 审计 一 般 发 生 在 CMDB 初 
始 化 准备 上 线 之 前 ， 此 后 CMDB 的 全 面 审计 应 该 定期 展开 ， 企 业 应 根 
据 需要 设置 周期 ， 一 般 一 年 至 少 展开 一 次 。 另 外 ，CMDB 还 需要 进行 一 
些 专项 审计 ， 从 而 小 范围 、 细 致 地 核查 某 类 CI 或 某 项 关键 服务 所 涉及 
的 CI“ 账 实 相符 ”的 状况 。 当 CMDB 审计 发 现 数据 不 符 时 应 尽快 查 明 
原因 ， 并 通过 变更 工 单 提请 变更 ， 最 终 修 改 CMDB 数据 。CMDB 审计 
流程 应 该 独立 展开 ， 审 计 员 应 由 监管 单位 或 部 分 的 相关 人 员 担 任 。 
(4) 配置 管理 的 角色 安排 
在 政策 和 流程 确立 之 后 ， 具 体 的 执行 还 是 需要 人 来 推动 。 因 此 ， 就 
进入 了 配置 管理 角色 设置 的 环节 。 配 置 管理 活动 所 涉及 的 角色 主要 分 为 
以 下 4 类 ， 即 配置 管理 流程 责任 人 、 配 置 经 理 、 配 置 管理 员 、 配 置 审计 
员 ， 他 们 各 司 其 职 ， 共 同 协助 完成 CMDB 的 运作 任务 。 其 中 ， 配 置 管 
理 流程 责任 人 需要 对 整个 流程 执行 的 结果 负责 , 并 拥有 一 定 的 流程 管理 
权力 ; 配置 经 理 主要 担当 流程 开发 和 管理 的 角色 , 重点 确保 配置 信息 的 
准确 性 和 可 用 性 ; 配置 管理 员 负 责 维护 配置 数据 ， 保 证 提供 给 IT 部 门 
的 CMDB 信息 总 是 准确 的 ; 配置 审计 员 则 主要 负责 通过 审计 操作 确认 
配置 数据 。 


13.2 自动 配置 工具 


要 实现 配置 自动 发 现 , 需要 有 一 个 好 用 的 基础 采集 工具 。 谈 到 开源 
的 自动 化 配置 管理 工具 , 就 不 得 不 说 Puppet、Chef、 Ansible 和 SaltStack 
这 4 驾 马 车 。 

1. Puppet 介绍 与 实践 


Puppet 是 一 个 优秀 的 基础 设施 管理 平台 。 下 面 将 介绍 Puppet 的 工 
作 原 理 ， 以 及 它 是 如 何 帮助 处 于 各 种 不 同 状况 的 团队 增强 协作 能 力 ， 以 
进行 软件 开发 和 发 布 的 一 一 这 种 工作 方式 的 演变 通常 被 称 作 DevOps 
(开发 运 维 )。 
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Puppet 是 什么 ? 

“Puppet” 这 个 词 实际 上 包括 了 两 层 含义 : 它 既 代 表 编 写 这 种 代码 
的 语言 ， 也 代表 对 基础 设施 进行 管理 的 平台 。 

(1) Puppet 语言 

Puppet 是 一 种 简单 的 建 模 语 言 , 使 用 它 编写 的 代码 能 够 对 基础 设施 
的 管理 实现 自动 化 。Puppet 允许 对 整个 系统 ( 称 之 为 节点 ) 所 希望 达到 
的 最 终 状 态 进行 简单 地 描述 。 这 与 过 程式 的 脚本 有 明显 的 不 同 : 编写 过 
程式 的 脚本 需要 读者 清楚 地 知道 如 何 将 某 个 特定 的 系统 转变 至 某 种 特 
定 的 状态 ， 并 且 正 确 地 编写 所 有 这 些 步骤 。 而 使 用 Puppet 时 ， 读 者 不 
需要 了 解 或 指定 达到 最 终 状态 的 步骤 ， 也 无须 担 心 因为 错误 的 步骤 顺 
序 ， 或 是 细微 的 脚本 错误 而 造成 错误 的 结果 。 

与 过 程式 的 脚本 的 另 一 点 不 同 在 于 ，Puppet 的 语言 能 够 跨 平台 运 
fT. Puppet 将 状态 进行 了 抽象 ， 而 不 依赖 于 具体 实现 ， 因 此 读者 就 可 以 
专注 在 自己 所 关心 的 那 一 部 分 系统 , 而 将 实现 的 细节 , 例如 命令 的 名 称 、 
参数 及 文件 格式 等 交 给 Puppet 自己 负责 。 举 例 来 说 ， 读 者 可 以 通过 
Puppet 对 所 有 的 其 他 用 户 以 相同 的 方式 进行 管理 ， 无 论 该 用 户 是 用 
NetInfo 或 是 /etc/passwd 方式 进行 存储 的 。 

这 种 抽象 的 概念 正 是 Puppet 功能 的 关键 所 在 ， 它 允许 使 用 者 自由 
选择 最 适合 他 本 人 的 代码 对 系统 进行 管理 。 这 意味 着 团队 之 间 能 够 更 好 
地 进行 协作 ， 团 队 成 员 也 能 够 对 他 们 所 不 了 解 的 资源 进行 管理 ， 这 种 方 
式 促 进 了 团队 共同 承担 责任 的 意识 。 

Puppet 这 门 建 模 语 言 的 另 一 个 优势 在 于 : 它 是 可 重复 的 。 通 常 来 说 ， 
要 继续 执行 脚本 文件 ， 必 须 对 系统 进行 变更 。 但 Puppet 可 以 被 不 断 地 
重复 执行 ,如 果 系统 已 经 达到 了 目标 状态 ，Puppet 就 会 确保 停留 在 该 状 
态 上 。 

(2) 资源 

Puppet 语言 的 基础 在 于 对 资源 的 声明 。 每 个 资源 都 定义 了 系统 的 一 
个 组 件 ， 例 如 某 个 必须 运行 的 服务 ， 或 是 某 个 必须 被 安装 的 包 。 以 下 是 
一 些 其 他 类 型 资源 的 示例 : 某 个 用 户 账 号 、 某 个 特定 的 文件 、 某 个 文件 
夹 、 某 个 软件 包 、 某 个 运行 中 的 服务 。 

可 以 将 资源 想象 为 构建 块 , 它们 将 结合 在 一 起 , 对 读者 所 管理 的 系 
统 的 目标 状态 进行 建 模 。 

Puppet 将 类 似 的 资源 以 类 型 的 方式 进行 组 织 。 举例 来 说 , 用户 是 一 
种 类 型 ,文件 是 另 一 种 类 型 ,而 服务 又 是 一 种 类 型 。 当 你 正确 地 对 某 个 
资源 的 类 型 进行 描述 之 后 ， 接 下 来 只 需 描述 该 资源 所 期 望 的 状态 即 可 。 


比 起 传统 的 写法 :“ 运 行 这 个 命令 ， 以 启动 XYZ 服务 ”， 你 只 需 简单 地 
表示 :“ 保 证 XYZ 处 于 运行 状态 ”就 可 以 了 。 

提供 者 则 在 一 种 特定 的 系统 中 , 使 用 该 系统 本 身 的 工具 实现 各 种 资 
源 类 型 。 由 于 类 型 与 提供 者 的 定义 被 区 分 开 来 , 因此 某 个 单一 的 资源 类 
型 (例如 “ 包 ”) 就 能 够 管理 多 种 不 同 的 系统 中 所 定义 的 包 。 举 例 来 说 ， 
你 的 “ 包 ” 资 源 能 够 管理 Red Hat 系统 下 的 yum、 基 于 Debian 的 系统 
下 的 dpkg 和 apt， 以 及 BSD 系统 中 的 端口 。 

管理 员 通 常 来 说 不 大 有 机 会 对 提供 者 进行 定义 , 除非 管理 员 打 算 改 
变 系统 的 默认 值 。 Puppet 中 已 经 精确 地 写 入 了 提供 者 ,因此 你 无 须 了 解 
如 何 对 运行 在 基础 设施 中 的 各 种 操作 系统 或 平台 进行 管理 。 再 次 声明 ， 
由 于 Puppet 将 细节 进行 了 抽象 ， 因 此 读者 无 须 担 心 各 种 细节 问题 。 如 
果 你 确实 需要 编写 提供 者 ， 那 也 通常 能 够 找到 一 些 简单 的 Ruby 代码 ， 
其 中 封装 了 各 种 shell 命令 ， 因 此 通常 非常 简短 ， 同 时 也 便于 创建 。 

类 型 和 提供 者 使 得 Puppet 能 够 运行 在 各 种 主流 平台 上 ， 并 且 允 许 
Puppet 不 断 成 长 与 进化 ， 以 支持 运算 服务 器 之 外 的 各 种 平台 ,例如 网 络 与 
存储 设备 。 

(3) 类 、 清 单 与 模块 

Puppet 语言 中 的 其 他 元 素 的 主要 作用 是 为 资源 的 声明 提供 更 多 的 
灵活 性 和 便捷 性 。 类 在 Puppet 中 的 作用 是 切 分 代码 块 ， 将 资源 组 织 成 
较 大 的 配置 单元 。 类 的 创建 与 调用 可 以 在 不 同 的 地 方 完成 。 不同 的 类 集 
合 可 以 应 用 在 扮演 不 同 角 色 的 节点 上 。 通 常 将 其 称 之 为 “节点 分 类 ”， 
这 是 一 项 非常 强大 的 能 力 , 它 允 许 你 根据 节点 的 能 力 , 而 不 是 根据 节点 
的 名 称 对 它们 进行 管理 。 这 种 “ 别 把 家 畜 当 宠物 ”的 机 器 管理 方式 ， 得 
到 了 许多 快速 发 展 的 组 织 的 偏爱 。 

Puppet 语言 文件 被 称 为 清单 ， 最 简单 的 Puppet 部 署 方 式 就 是 一 个 
单独 的 清单 文件 加 上 一 些 资源 。 如 果 为 以 上 示例 中 的 基础 Puppet 代码 
命名 为 “user-presentpp” 文 件 ， 那 它 就 成 为 了 一 个 清单 。 

模块 是 一 系列 类 、 资 源 类 型 、 文 件 和 模板 的 结合 ， 它 们 以 某 个 特定 
的 目的 ， 并 按照 某 种 特定 的 、 可 预测 的 结构 组 织 在 一 起 。 模 块 可 以 为 了 
各 种 目的 而 创建 ， 可 以 是 对 Apache 实例 进行 完整 的 配置 以 搭建 一 套 
Rails 应 用 程序 ， 也 可 以 为 各 种 其 他 目的 进行 创建 。 通 过 将 各 种 复杂 特 
性 的 实现 封装 在 模块 中 , 管理 员 就 能 够 使 用 更 小 、 可 读 性 更 好 的 清单 文 
件 对 模块 进行 调用 。 

Puppet 模块 的 一 个 巨大 优势 在 于 模块 的 重用 性 。 用 户 可 以 自由 使 用 
他 人 编写 的 模块 ， 并 且 Puppet 有 一 个 参与 者 数量 巨大 的 活跃 社区 ， 除 
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了 Puppet Labs 的 员工 所 编写 的 模块 之 外 ， 社 区 成 员 们 也 会 免费 地 分 享 
他 们 所 编写 的 模块 。 读 者 能 够 在 Puppet Forge 上 找到 超过 3000 个 可 以 
免费 下 载 的 模块 , 其 中 有 许多 模块 是 系统 管理 员工 作 中 最 常见 的 一 些 任 
5. 因此 这 些 模块 能 够 节约 大 量 的 时 间 。 例 如， 读者 可 以 使 用 模块 进行 
各 种 管理 任务 ， 包 括 简 单 的 服务 器 构建 块 NTP、SSH) FH, BR 
杂 方 案 (SQL Server 或 F5) 的 管理 。 

类 、 清 单 和 模块 都 是 纯粹 的 代码 , 与 组 织 中 所 需要 的 其 他 任何 代码 
一 样 ， 它 们 能 够 、 也 应 该 被 签 入 到 版 本 控制 系统 当中 ， 稍 后 将 对 这 一 点 
展开 讨论 。 

(4) Puppet 平 台 

完整 的 Puppet 解决 方案 不 仅仅 是 指 这 门 语言 。 使 用 者 需要 在 不 同 
的 基础 设施 中 部 署 Puppet 代码 、 时 不 时 地 对 代码 及 配置 进行 更 新 、 纠 
正 不 恰当 的 变更 , 并 且 时 时 对 系统 进行 检查 ， 以 保证 每 个 环节 的 正常 运 
行 。 为 了 满足 这 些 需求 ， 大 多 数 使 用 者 会 在 某 个 主机 -代理 结构 中 运行 
Puppet 解决 方案 ， 由 一 系列 组 件 所 组 成 。 根 据 不 同 的 需求 ， 使 用 者 可 以 
选择 运行 一 个 或 多 个 主机 。 每 个 节点 上 都 会 安装 一 个 代理 ， 通 过 一 个 经 
过 签名 的 安全 连接 与 主机 进行 通信 。 

采取 主机 -代理 这 一 结构 的 目的 是 为 了 将 Puppet 代码 部 署 在 节点 
上 ， 并 长 期 维护 这 些 节 点 的 配置 信息 。 在 对 节点 进行 配置 之 前 ，Puppet 
会 将 清单 编译 为 一 个 目录 (catalog)， 目 录 是 一 种 静态 文档 ， 在 其 中 对 
系统 资源 及 资源 间 的 关系 进行 定义 。 根 据 节点 的 工作 任务 , 以 及 任务 的 
LEMAR, 每 个 目录 将 对 应 一 个 单独 的 节点 。 目 录 定义 了 节点 将 如 何 
工作 ，Puppet 将 根据 目录 的 内 容 对 节点 进行 检查 , 判断 该 节点 的 配置 是 
否 正确 ， 并 且 在 需要 时 应 用 新 的 配置 。 

在 读者 使 用 Puppet 时 ， 是 在 对 自己 的 基础 设施 进行 建 模 ， 正 如 对 
代码 建 模 一 样 。 读 者 能 够 用 像 对 待 代码 一 样 的 方式 处 理 Puppet, 或 者 从 
更 广 的 意义 上 说 , 是 对 基础 设施 的 配置 进行 同样 的 处 理 。Puppet 代码 能 
够 方便 地 进行 保存 和 重用 , 能够 与 运 维 团队 的 其 他 成 员 ,， 以 及 其 他 任何 
需要 对 机 器 进行 管理 的 团队 成 员 进 行 分 享 。 无 论 是 在 笔记 本 电脑 上 的 开 
发 环境 , 还 是 在 生产 环境 上 , 开发 人 员 和 运 维 人 员 都 能 够 使 用 相同 的 清 
单 对 系统 进行 管理 。 因 此 ， 当 代码 发 布 到 生产 环境 时 ， 各 种 令 人 不 快 的 
打击 就 会 少 很 多 ， 这 将 大 大 改善 部 署 的 质量 。 

将 配置 作为 代码 处 理 , 系统 管理 员 就 能 够 为 开发 人 员 提 供 独 占 的 测 
试 环境 , 开发 人 员 也 不 再 将 系统 管理 员 视 为 碍 事 的 人 了 。 读者 甚至 可 以 
将 Puppet 代码 交付 给 审计 ， 如 今 有 许多 审计 都 接收 Puppet 清单 ， 以 进 


行 一 致 性 验证 。 这 些 都 能 够 提升 组 织 的 效率 ， 并 点 燃 员 工 的 热情 。 

最 重要 的 一 点 或 许 在 于 ， 读 者 能 够 将 Puppet 代码 签 入 到 某 个 共享 
的 版 本 控制 工具 中 ， 这 将 为 读者 的 基础 设施 提供 一 个 可 控 的 历史 记录 。 
读者 可 以 实行 在 软件 开发 者 中 十 分 常见 的 结对 审查 实践 , 让 运 维 团队 也 
能 够 不 断 地 对 配置 代码 进行 改善 、 变 更 和 测试 , 直到 你 有 信心 将 配置 提 
交 至 生产 环境 。 

由 于 Puppet 支持 在 模拟 环境 或 noop 模式 下 运行 , 读者 就 可 以 在 应 
用 改动 之 前 预先 检查 改动 会 造成 的 影响 。 这 将 大 大 缓解 部 署 的 压力 ， 因 
为 你 可 以 随时 选择 回 滚 。 

通过 在 Puppet 使 用 中 结合 版 本 控制 ， 以 及 之 前 所 提 到 的 各 种 优秀 
实践 , 许多 客户 实现 了 持续 集成 方面 的 最 高 境界 ,能 够 更 频繁 地 将 代码 
提交 至 生产 环境 , 并 且 产 生 的 错误 更 少 。 如果 读者 能 够 以 更 小 的 增 量 部 
署 应 用 ， 就 能 够 更 早 、 更 频繁 地 获得 用 户 的 反馈 ， 它 将 告诉 读者 ， 是 否 
正 处 在 正确 的 前 进 方向 上 。 这 样 就 可 以 避免 在 经 过 6 一 12 个 月 开发 工作 
并 提交 了 大 量 代码 之 后 , 却 发 现 它 并 不 符合 客户 的 需要 ,或 是 对 客户 没 
有 吸引 力 这 种 悲惨 情形 的 发 生 了 。 

客户 会 选择 与 开发 人 员 的 应 用 程序 代码 同步 对 开发 、 测 试 以 及 生产 
环境 上 的 配置 进行 变更 ， 这 就 让 开发 者 能 够 在 一 个 非常 接近 于 真实 环 
ii, 甚至 与 生产 环境 完全 相同 的 环境 中 进行 工作 。 再 也 不 会 发 生 由 于 在 
开发 与 测试 环境 中 的 配置 的 不 同 , 导致 应 用 程序 在 生产 环境 上 崩 江 的 情 
况 出 现 了 。 


2. Chef 介绍 与 实践 


Chef 是 一 个 全 新 的 开源 应 用 ， 包 括 系 统 集成 、 配 置 管理 和 预 配置 
等 功能 ， 由 来 自 华 盛 顿 西 雅 图 的 Opscode 基于 Apache 2.0 许可 证 发 布 。 
Chef 通过 定义 系统 节点 、 食 谱 (Cookbook) 和 程序 库 来 进行 工作 ， 食 
谱 用 于 表达 管理 任务 ， 而 程序 库 则 用 于 定义 和 其 他 ， 如 应 用 程序 、 数 据 
库 或 者 像 LDAP 目录 一 类 的 系统 管理 资源 等 工具 之 间 的 交互 。 

Chef 通过 基于 Ruby 的 DSL 来 实现 , 而 该 DSL 又 是 通过 Chef 客户 
端 来 进行 解释 的 ， 并 在 Chef 服务 器 的 指导 下 进行 工作 。 客 户 端 通过 
OpenID 向 服务 器 发 起 认证 ， 然 后 自动 同步 必要 的 资源 和 程序 库 。 客 户 
端 将 利用 这 些 资源 来 逐步 配置 客户 端的 节点 ， 这 个 步骤 叫 作 “收敛 

(convergence)”。 理想 情况 下 ,配置 可 以 在 一 步 内 完成 ;， 如 果 没 有 达到 
目标 ， 系 统 会 稍 后 再 次 调用 ， 去 向 期 望 的 最 终 状 态 进行 “收敛 ”。 

(1) Chef 简介 

Chef 是 由 Ruby 开发 的 服务 器 的 构成 管理 工具 。 想象 一 下 现在 需要 
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搭建 一 台 MySQL database slave 服务 器 ， 安 装 过 程 中 手动 操作 了 没 过 多 
A, 需要 第 二 台 ; 如 果 之 前 安装 第 一 台 的 时 候 把 操作 过 程 执行 的 命令 写 
成 脚本 ,现在 安装 第 二 台 ,， 运行 一 下 脚本 就 行 了 ， 节 约 时 间 而 且 不 容易 
出 错 。Chef 就 相当 于 这 样 的 一 个 脚本 管理 工具 ， 但 功能 要 强大 得 多 ， 
可 定制 性 强 。Chef 将 脚本 命令 代码 化 ， 定 制 时 只 需要 修改 代码 ， 安 装 
的 过 程 就 是 执行 代码 的 过 程 。 

打 个 比方 ，Chef 就 像 一 个 制作 玩具 的 工厂 ， 它 可 以 把 一 些 原材料 
做 成 漂亮 的 玩具 , 它 有 一 些 模板 , 你 把 原材料 放 进 去 , 选择 一 个 模板 (如 
怪物 史 莱 克 )， 它 就 会 制造 出 这 个 玩具 ， 服 务 器 的 配置 也 是 这 样 ， 一 台 
还 没有 配置 的 服务 器 ， 读 者 给 它 指定 一 个 模板 (role 或 recipe), Chef 
就 会 把 它 配置 成 你 想 要 的 线 上 服务 器 。 

这 个 只 是 Chef 的 一 方面 ， 因 为 安装 好 系统 后 执行 一 个 脚本 也 可 以 
达到 同样 的 目的 ，Chef 还 有 另 一 方面 是 脚本 达 不 到 的 ， 那 就 是 Chef 对 
经 过 配置 的 服务 器 有 远程 控制 的 能 力 , 它 可 以 随时 对 系统 进行 进一步 的 
配置 或 修改 , 就 像 前 面 的 玩具 工厂 可 以 随时 改变 它 的 玩具 的 颜色 、 大 小 。 
你 也 可 以 通过 手动 的 方式 达到 目的 , 但 是 当 服 务 器 比较 多 的 时 候 , 可 能 
手动 的 方法 就 不 是 那么 欢乐 了 。 

(2) Chef 的 3 种 管理 模式 

@ Chef-Solo: 由 一 台 普 通 计算 机 控制 所 有 的 服务 器 ， 不 需要 专 设 
— & chef- server. 

Q) Client-Server: 所 有 的 服务 器 作为 chef-client, 统一 由 chef-server 
进行 管理 ， 管 理 包括 安装 、 配 置 等 工作 。chef-server 可 以 自 建 ， 但 安装 
的 东西 较 多 ， 由 于 使 用 solr 作为 全 文 搜索 引擎 ， 还 需要 安装 Java。 

@ Opscode Platform: 类 似 于 Client-Server， 只 是 Server 端 不 需要 
自 建 ， 而 是 采用 http://www.opscode.com 提供 的 chef-server 服务 。 

(3) Chef 能 做 什么 

Chef 几乎 能 做 任何 事情 。 由 于 Chef 使 用 类 似 模 板 的 方法 对 服务 进 
行 配置 ， 大 家 可 能 认为 它 只 适合 于 一 些 配置 比较 类 似 的 服务 。 其 实 ， 只 
要 你 可 以 对 一 台 服 务 器 执行 命令 ， 你 就 可 以 对 这 人 台 服 务 器 做 任何 配置 。 

(4) Chef 工作 管理 

在 Workstation 上 定义 各 个 Client 应 该 如 何 配置 自己 ， 然 后 将 这 些 
信息 上 传 到 中 心服 务 器 ， 可 以 分 为 以 下 两 个 方面 。 

® Chef 利 用 Recipe 和 了 Role 定义 出 来 一 些 模板 ,如 一 个 名 为 MySQL 
的 Role 可 能 描述 怎么 配置 才能 成 为 一 个 MySQL 服务 器 ， 利 用 它 的 
runlist 里 包含 的 Role 和 Recipe 实现 这 种 描述 ，Chef 再 指定 各 个 Client 


应 用 哪些 模板 .如 给 Client] 指定 MySQL 的 Role, 实际 上 只 是 将 MySQL 
的 run list 里 的 东西 加 到 Client] 的 run. list 里 。 

Q) 每 个 Client 连 到 中 心服 务 器 查看 如 何 配置 自己 ， 然 后 进行 自我 
配置 。 
Q Client 连 到 中 心服 务 器 查看 自己 的 run list. 里 都 有 什么 东西 
(Role 和 Recipe)， 把 需要 的 Cookbook 传 一 份 过 来 。 
O 把 run list 里 的 Role 展开 成 Recipe， 就 得 到 一 个 Recipe 的 列 
表 了 。 
Q 这 些 Recipe 都 属于 哪些 Cookbook, 这 些 Cookbook 可 能 就 是 被 
传 的 对 象 了 。 
O Client 把 run list 里 的 东西 按 顺序 (重要 程度 ) 展开 成 Resource 
(得 到 一 个 Resource 的 列表 )。 
O Client 按 顺序 (重要 程度 ) 应 用 这 个 Resource 列表 来 进行 自我 
配置 。 
O Provider 负责 把 这 个 抽象 的 Resource 对 应 到 具体 的 系统 命令 。 


3. Ansible 介绍 与 实践 


Ansible 是 一 个 IT 自动 化 工具 。 它 可 以 配置 系统 、 开 发 软件 ,或 者 
编排 高 级 的 IT 任务 ， 例 如 持续 开发 或 者 零 宕 机 滚动 更 新 。 

Ansible 的 主要 目标 是 简单 易 用 。 它 也 同样 专注 安全 性 和 可 靠 性 、 
最 小 化 的 移动 部 件 , 使 用 Openssh 传输 (有 加 速 socket 模式 和 同样 可 用 
拉 取 模式 )， 易 于 人 类 阅读 的 语言 ， 使 不 熟悉 编程 的 人 也 可 以 看 得 懂 。 

Ansible 适用 于 管理 所 有 类 型 的 环境 ， 从 随手 可 安装 的 实例 ， 到 企 
业 级 别 的 成 千 上 万 个 实例 都 可 行 。 

Ansible 管理 机 器 使 用 无 代理 的 方式 。 更 新 远 端 服务 进程 或 者 因为 
服务 未 安装 导致 的 问题 在 Ansible 里 面 从 来 不 会 发 生 。 因 为 Openssh 是 
很 流行 的 开源 组 件 ， 安 全 问题 大 大 降低 了 。Ansible 是 非 中 心 化 的 ， 它 
依赖 于 现 有 的 操作 系统 凭证 来 访问 控制 远程 机 器 。 如 果 需 要 的 话 ， 
Ansible 可 以 使 用 Kerberos, LDAP 和 其 他 集中 式 身 份 验证 管理 系统 。 

Ansible 是 一 个 模型 驱动 的 配置 管理 器 ， 支 持 多 节点 发 布 、 远 程 任 
务 执 行 。 默 认 使 用 SSH 进行 远程 连接 ， 无 须 在 被 管理 节点 上 安装 附加 
软件 ， 可 使 用 各 种 编程 语言 进行 扩展 。 

1) Ansible 基本 架构 

Ansible 基本 框架 包括 如 下 内 容 。 

口 核心 : Ansible。 
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核心 模块 (Core Modules): Ansible 自 带 的 模块 。 

扩展 模块 (Custom Modules): 如 果 核 心 模块 不 足以 完成 某 种 
功能 ， 可 以 添加 扩展 模块 。 

{AF (Plugins): 完成 模块 功能 的 补充 。 

剧本 (Playbooks): Ansible 的 任务 配置 文件 ， 将 多 个 任务 定义 
在 剧本 中 ， 由 Ansible 自动 执行 。 

连接 插件 (Connectior Plugins): Ansible 基于 连接 插件 连接 到 
各 个 主机 上 ， 虽 然 Ansible 是 使 用 SSH 连接 到 各 个 主机 的 ， 但 
是 它 还 支持 其 他 的 连接 方法 ， 所 以 需要 有 连接 插件 。 

主机 群 (Host Inventory): 定义 Ansible 管理 的 主机 。 


2) Ansible 工作 原理 
图 1-4 和 图 1-5 所 示 为 Ansible 工作 原理 图 ， 两 张 图 基本 都 是 在 架 
构图 的 基础 上 进行 的 拓展 。 


口 








图 1-4 Ansible 工作 原理 图 一 


管理 端 支持 SSH、ZeroMQ、Local、Kerberos LDAP 等 连接 被 
管理 端 , 默认 使 用 基于 SSH 的 连接 一 一 这 部 分 对 应 基本 架构 图 
中 的 连接 模块 。 

可 以 按 应 用 类 型 等 方式 进行 Host Inventory (主机 群 ) 分 类 , 管 
理 节 点 通过 各 类 模块 实现 相应 的 操作 一 一 单个 模块 ， 单 条 命令 
的 批量 执行 ， 可 以 称 之 为 ad-hoc. 

管理 节点 可 以 通过 Playbooks 实现 多 个 task 的 集合 实现 一 类 功 
能 ， 如 Web 服务 的 安装 部 署 、 数 据 库 服 务 器 的 批量 备份 等 。 
Playbooks 可 以 简单 地 理解 为 ， 系 统 通过 组 合 多 条 ad-hoc 操作 


的 配置 文件 。 
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Ansible 工 作 机 制 
图 1-5 Ansible 工作 原理 图 二 


3) Ansible 常用 命令 
安装 完 Ansible 后 ， 发 现 Ansible 一 共 提 供 了 7 个 指令 : ansible、 
ansible-doc、 ansible-galaxy、 ansible-lint、 ansible-playbook、 ansible-pull、 
ansible-vault。 这 里 只 查看 usage 部 分 ， 详 细部 分 可 以 通过 “指令 -h" 
的 方式 获取 。 
(1) ansible 


[root@localhost ~]# ansible -h 
Usage: ansible <host-pattern> [options] 


ansible 是 指令 核心 部 分 ， 其 主要 用 于 执行 ad-hoc 命令 ， 即 单条 命 
令 。 默 认 后 面 需 要 跟 主 机 和 选项 部 分 ， 默 认 不 指定 模块 时 ， 使 用 的 是 
command 模块 。 不 过 默认 使 用 的 模块 是 可 以 在 ansible.cfg 中 进行 修改 
的 。ansible 命令 下 的 参数 部 分 解释 如 下 。 


-a 'Arguments', -args-'Arguments' 命令 行 参数 

-m NAME, —module-name=NAME 执行 模块 的 名 字 ， 默 认 使 用 command 模块 ， 
所 以 如 果 是 只 执行 单一 命令 可 以 不 用 -m 参数 

-i PATH, --inventory=PATH 指定 库存 主机 文件 的 路 径 ， 默 认为 /etc/ansible/ 
hosts. 

-u Username, --user=Username 执行 用 户 ， 使 用 这 个 远程 用 户 名 而 不 是 当前 
用 户 

-U --sud-user=SUDO_User sudo 到 哪个 用 户 ， 默 认为 root 

-k-ask-pass ”登录 密码 ， 提 示 输 入 SSH 密码 而 不 是 假设 基于 密 钥 的 验证 

-K --ask-sudo-pass 提示 密码 使 用 sudo 

-s --sudo sudo 运行 

-S --su 用 su 命令 

-|--list 显示 所 支持 的 所 有 模块 

-s -snippet 指定 模块 显示 剧本 片段 





-f —forks-NUM 并 行 任务 数 。NUM 被 指定 为 一 个 整数 ， 默 认 是 5. #ansible 
testhosts -a "/sbin/reboot" -f 10 重启 testhosts 组 的 所 有 机 器 ， 每 次 重启 10 台 
--private-key=PRIVATE_KEY_FILE 私 钥 路 径 ， 使 用 这 个 文件 来 验证 连接 
-v --verbose 详细 信息 
all 针对 hosts 定义 的 所 有 主机 执行 
-M MODULE PATH, --module-path=MODULE_PATH 要 执行 的 模块 的 路 径 ， 
默认 为 /usr/share/ansible/ 
-list-hosts. 只 打印 有 了 哪些 主机 会 执行 这 个 playboo 文件 ， 不 是 实际 执行 该 
playbook 文件 
-o --one-line 压缩 输出 ， 摘 要 输出 ， 尝 试 一 切 都 在 一 行 上 输出 
-t Directory, --tree=Directory 将 内 容 保存 在 该 输出 目录 
-B 后 台 运行 超时 时 间 
-P 调查 后 台 程 序 时 间 
-T Seconds, --timeout=Seconds 时 间 ， 单 位 秒 (s) 
-P NUM, --poll=NUM 调查 背景 工作 每 隔 数秒 。 需 要 - b 
-c CONNECTION, --connection=CONNECTION 指定 建立 连接 的 类 型 ， 一 般 
有 SSH、Localhost FILES 
--tags=TAGS 只 执行 指定 标签 的 任务 ， 例 子 : ansible-playbook test.yml 
-tags-copy 只 执行 标签 为 copy 的 那个 任务 
-list-hosts. 只 打印 有 了 哪些 主机 会 执行 这 个 playbook 文件 ， 而 不 是 实际 执行 该 
playbook 文件 
-list-tasks 列 出 所 有 将 被 执行 的 任务 
-C, --check 只 是 测试 一 下 会 改变 什么 内 容 ， 不 会 真正 去 执行 ; 相反， 试图 预测 
一 些 可 能 发 生 的 变化 
—syntax-check 执行 语法 检查 的 剧本 ， 但 不 执行 它 
-| SUBSET, --limit=SUBSET 进一步 限制 所 选 主机 /组 模式 
--skip-tags=SKIP_TAGS 只 运行 戏剧 和 任务 不 匹配 这 些 值 的 标签 
--skip- tags-copy. start 
-e EXTRA VARS, --extra-vars=EXTRA_VARS ”额外 的 变量 设置 为 键 = 值 或 
YAML / JSON 
#cat update.yml 
- hosts: {{ hosts }} 
remote user: (( user }} 
#ansible-playbook update.yml --extra-vars "hosts-vipers user=admin" 
fiX((hosts). ((user]) HESS, hosts 可 以 是 IP 或 组 名 
limit 对 指定 的 主机 /组 执行 任务 


(2) ansible-doc 


# ansible-doc -h 
Usage: ansible-doc [options] [module...] 


该 指令 用 于 查看 模块 信息 ， 常 用 参数 有 -1 和 -s 两 个 ， 具 体 如 下 : 


// 列 出 所 有 已 安装 的 模块 
#ansible-doc -l 
// 查 看 具体 某 模块 的 用 法 ， 这 里 如 查看 command 模块 


# ansible-doc -s command 
(3) ansible-galaxy 


# ansible-galaxy -h 

Usage: ansible-galaxy [initlinfolinstallllistlremove] [--help] [options] ... 

ansible-galaxy 指令 用 于 方便 地 从 https://galaxy.ansible.com/ 站 点 下 
载 第 三 方 扩展 模块 ， 可 以 形象 地 理解 其 类 似 于 centos 下 的 yum. python 
下 的 pip 或 easy_install， 示 例如 下 : 

[root@localhost ~}# ansible-galaxy install aeriscloud.docker 

- downloading role 'docker', owned by aeriscloud 

- downloading role from https://github.com/AerisCloud/ansible- docker/archive/ 

v1.0.0.tar.gz 


- extracting aeriscloud.docker to /etc/ansible/roles/aeriscloud. docker 
- aeriscloud.docker was installed successfully 


这 个 示例 安装 了 一 个 aeriscloud.docker 组 件 ， 前 面 的 aeriscloud 是 
galaxy 上 创建 该 模块 的 用 户 名 ， 后 面 对 应 的 是 其 模块 。 在 实际 应 用 中 也 
可 以 指定 txt 或 yml 文件 进行 多 个 组 件 的 下 载 安装 。 这 部 分 可 以 参看 官 
方 文档 。 

(4) ansible-lint 

ansible-lint 是 对 playbook 的 语法 进行 检查 的 一 个 工具 。 用 法 是 

ansible-lint playbook.yml. 
(5) ansible-playbook 

该 指令 是 使 用 最 多 的 指令 ， 其 通过 读 取 playbook 文件 后 ， 执 行 相 

应 的 动作 ， 这 个 在 后 面 会 作为 一 个 重点 来 讲解 。 
(6) ansible-pull 

该 指令 使 用 需要 谈 到 Ansible 的 另 一 种 模式 一 一 pull 模式 ， 这 和 平 
常 经 常用 的 push 模式 刚好 相反 ， 其 适用 于 以 下 场景 : 读者 有 数量 巨大 
的 机 器 需要 配置 ， 即使 使 用 非常 高 的 线程 还 是 要 花费 很 多 时 间 ; 读者 要 
在 一 个 没有 网 络 连 接 的 机 器 上 运行 Anisble， 如 在 启动 之 后 安装 。 

(7) ansible-vault 

ansible-vault 主要 应 用 于 配置 文件 中 含有 敏感 信息 ， 又 不 希望 它 能 
被 人 看 到 ，vault 可 以 帮 读 者 加 密 / 解 密 这 个 配置 文件 ， 属 高 级 用 法 。 主 
要 对 于 playbooks 里 ， 如 涉及 配置 密码 或 其 他 变量 的 操作 时 ， 可 以 通过 
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该 指令 加 密 ， 这 样 通过 cat 看 到 的 会 是 一 个 密码 串 类 的 文件 ， 编 辑 的 时 
候 需要 输入 事先 设 定 的 密码 才能 打开 。 这 种 playbook 文件 在 执行 时 ， 
需要 加 上 -ask-vault-pass 参数 ， 同 样 需要 输入 密码 后 才能 正常 执行 。 该 
部 分 具体 内 容 可 以 参考 查看 官方 博客 。 

上 面 7 个 指令 ， 用 的 最 多 的 只 有 ansible 和 ansible-playbook 两 个 ， 
这 两 个 一 定 要 掌握 ， 其 他 5 个 属于 拓展 或 高 级 部 分 。 


4. SaltStack 介绍 与 实践 


SaltStack 管理 工具 允许 管理 员 对 多 个 操作 系统 创建 一 个 一 致 的 管 
理 系统 ， 包 括 VMware vSphere 环境 。 

SaltStack 作用 于 仆 从 和 主 拓扑 。SaltStack 与 特定 的 命令 结合 使 用 可 
以 在 一 个 或 多 个 下 属 执行 。 实 现 这 一 点 ,此 时 Salt Master 可 以 发 出 命令 ， 
如 salt *' cmd.run 'Is -1 /'。 

除了 运行 远程 命令 ，SaltStack 允许 管理 员 使 用 “grain”。grain 可 以 
在 SaltStack 仆 从 运行 远程 查询 ， 因 此 收集 仆 从 的 状态 信息 并 允许 管理 
员 在 一 个 中 央 位 置 存 储 信息 。SaltStack 也 可 以 帮助 管理 员 定义 目标 系统 
上 的 期 望 状态 。 这 些 状态 在 应 用 时 会 用 到 .sls 文件 ， 其 中 包含 了 如 何在 
系统 上 获得 所 需 状态 非常 具体 的 要 求 。 由 于 它 提供 了 在 管理 远程 系统 的 
灵活 性 ，SaltStack-based 产品 迅速 获得 利益 。 该 功能 可 以 对 比 由 状态 管 
理 系统 提供 的 功能 ， 如 Puppet 和 Ansible。SaltStack 很 大 程度 上 得 益 于 
快速 的 采用 率 ， 它 包括 一 个 在 管理 系统 上 运行 远程 命令 的 有 效 方式 。 

SaltStack 采用 C/S iX, server 端 就 是 salt 的 master, client 端 就 是 
minion，minion 与 master 之 间 通 过 ZeroMQ 消息 队列 通信 ，minion 上 
线 后 先 与 master 端 联系 , 把 自己 的 pub key 发 过 去 , 这 时 master 端 通过 
salt-key -L 命令 就 会 看 到 minion 的 key， 接 受 该 minion-key 后 ， 也 就 是 
master 与 minion 已 经 互信 master 可 以 发 送 任何 指令 让 minion 执行 了 ， 
salt 有 很 多 可 执行 模块 ， 如 cmd 模块 ， 在 安装 minion 时 已 经 自 带 了 ， 
它们 通常 位 于 用 户 的 python 库 中 。 

master 下 发 任务 匹配 到 minion 上 去 ，minion 执行 模块 函数 ， 并 返 
回 结果 。master 监听 4505 和 4506 端口 ，4505 对 应 的 是 ZMQ 的 PUB 
system, FAK AISI A, 4506 对 应 的 是 REP system， 是 来 接受 消息 的 。 

具体 步骤 如 下 : 

(D SaltStack 的 master 与 minion 之 间 通 过 ZeroMQ 进行 消息 传递 ， 使 
用 了 ZeroMQ 的 发 布 -订阅 模式 ， 连 接 方式 包括 trtp、ipc。 

(2) salt 命令 将 cmd.run ls 命令 从 salt.client.LocalClient.cmd cli 发 布 
到 master， 获 取 一 个 jobid， 根 据 jobid 获取 命令 执行 结果 。 








®© master 接收 到 命令 后 ， 将 要 执行 的 命令 发 送 给 客户 端 minion. 

® minion 从 消息 总 线 上 接收 到 要 处 理 的 命令 ， 交 给 minion. 
handle aes 处 理 。 

(5) minion. handle aes 发 起 一 个 本 地 线程 调用 cmdmod 执行 ls 命 
令 。 线 程 执行 完 ls 后 ， 调 用 minion. retum pub 方法 ， 将 执行 结果 通过 
消息 总 线 返回 给 master。 

© master 接收 到 客户 端 返回 的 结果 ,调用 master. handle aes 方法 ， 
将 结果 写 到 文件 中 。 

C) salt.client.LocalClient.cmd cli 通过 轮 询 获 取 Job 执行 结果 ,将 结 
果 输 出 到 终端 。 


1.3.3 云 时 代 下 的 CMDB 
从 CMDB 在 国内 发 展 的 历程 看 ， 随 着 客户 对 于 CMDB 认 知 不 断 深 
化 , CMDB 已 经 从 传统 的 资产 管理 逐步 演化 到 流程 协同 管理 、 事 件 及 变 
更 影响 分 析 、 云 平台 资源 管理 等 方面 。 表 1-14 描述 了 CMDB 不 同 阶段 
的 发 展 变化 。 
表 1-14 不 同 阶段 CMDB 发 展 


x s» [第 一 阶段 第 三 阶段 
模型 偏 静态 动态 ， 调 整 难度 适中 动态 ， 调 整 快速 
自动 发 现 + 服务 的 
数据 初始 化 Excel 导入 自动 发 现 +Excel 导入 同时 更 新 了 配置 库 
配置 更 新 手工 实时 更 新 
所 有 IT 组 件 及 相 
管理 范 i i 
配置 管理 范围 | 设备 设备 + 软件 ilie 
场景 资产 管理 配置 自动 发 现 、 告 警 分 析 | 配置 管理 服务 化 








资源 动态 变化 是 云 环境 下 对 配置 管理 最 大 的 挑战 , 无 论 对 于 配置 模 

型 还 是 配置 数据 的 更 新 都 提出 了 全 新 要 求 。 在 云 化 时 代 , CMDB 需要 从 

原 有 的 单一 工具 转变 为 一 种 企业 IT 服务 能 力 ， 即 CMDB As A Service 

(以 下 为 了 便于 叙述 ， 使 用 云 化 CMDB 代替 )， 消 费 者 可 以 通过 网 络 随 
时 随地 获取 、 维 护 、 管 理 CMDB。 





14 其 他 运 维 工具 
1.4.1 Ambari 


Ambari 跟 Hadoop 等 开源 软件 一 样 ， 也 是 Apache Software 
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Foundation 中 的 一 个 项 目 。 就 Ambari 的 作用 来 说 ， 就 是 创建 、 管 理 、 
监视 Hadoop 的 集群 。 

Ambari 自身 也 是 一 个 分 布 式 架 构 的 软件 ， 主 要 由 两 部 分 组 成 : 
Ambari Server 和 Ambari Agent。 简 单 来 说 ， 用 户 通过 Ambari Server 通 
知 Ambari Agent 安装 对 应 的 软件 ，Ambari Agent 会 定时 地 发 送 各 个 机 
器 每 个 软件 模块 的 状态 给 Ambari Server， 最 终 这 些 状态 信息 会 呈现 在 
Ambari 的 GUI E, 方便 用 户 了 解 到 集群 的 各 种 状态 ， 并 进行 相应 的 维 


护 。 图 1-6 是 Ambari 基本 架构 。 
Repository 
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Download package 
and install 
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1-6 Ambari 架构 


Ambari Server 会 读 取 Stack 和 Service 的 配置 文件 。 当 用 Ambari 
创建 集群 时 ,Ambari Server 传送 Stack 和 Service 的 配置 文件 以 及 Service 
生命 周期 的 控制 脚本 到 Ambari Agent. Ambari Agent 拿 到 配置 文件 后 ， 
会 下 载 安装 公共 源 里 的 软件 包 (Redhat, PEA yum 服务 )。 安 装 完 
成 后 ，Ambari Server 会 通知 Ambari Agent 去 启动 Service。 之 后 Ambari 
Server 会 定期 发 送 命令 到 Ambari Agent 检查 Service 的 状态 ，Ambari 
Agent 上 报 给 Ambari Server, 并 呈现 在 Ambari 的 GUI 上 。Ambari Server 
支持 Rest API， 这 样 可 以 很 容易 地 扩展 和 定制 化 Ambari。 甚 至 于 不 用 
登录 Ambari 的 GUI， 只 需要 在 命令 行 通过 curl 就 可 以 控制 Ambari， 以 
及 控制 Hadoop 的 cluster. AKAN API 可 以 参见 Apache Ambari 的 官方 
网 页 API reference。 对 于 安全 方面 要 求 比较 苛刻 的 环境 来 说 ，Ambari 








可 以 支持 Kerberos 认证 的 Hadoop 集群 。 

通过 安装 部 署 Ambari， 可 以 方便 地 监控 以 及 管理 大 数据 系统 集群 
中 的 各 个 服务 、 模 块 和 机 器 。 

首先 进入 到 Ambari 的 GUI 页 面 ， 并 查看 Dashboard。 在 左 侧 的 
Service 列表 中 ， 可 以 单 击 一 个 Service。 以 MapReduce2 为 例 (Hadoop 
这 里 的 版 本 为 2.6x， 也 就 是 YARN+HDFS+MapReduce )， 当 单 击 
MapReduce2 后 ， 就 会 看 到 该 Service 的 相关 信息 ， 如 图 1-7 所 示 。 


Metres Heatmaps Config History 
Metric Actions = 
HDFS Disk Usage DataNodes Live HOFS Links Memory Usage 
iva NameNode 
% 1 I1 Secondary NameNode 
1 DataNodes. 
Mom. 
CPU Usage Cluster Load NameNode Heap NameNode RPC 


ME d... 0 ms 


1-7 MapReduce2 的 Service 界面 


中 间 部 分 是 Service AY BEER (Component) 信息 ， 也 就 是 该 Service 
有 哪些 模块 及 其 数目 。 右 上 角 有 个 Service Actions 按钮 ， 当 单 击 该 按钮 
后 就 可 以 看 到 很 多 Service 的 控制 命令 。 也 就 是 通过 这 些 Service Action 
命令 ， 对 Service 进行 管理 。 

下 面 介绍 通过 Ambari 对 机 器 级 别 进行 管理 。 首 先 ， 回 到 Ambari 
的 Dashboard 页 面 。 单 击 页 面 中 的 Hosts 标签 ， 就 可 以 看 到 Ambari 所 
管理 的 机 器 列表 ， 如 图 1-8 所 示 。 





Name IP Address Rack Cores © RAM 
© ed10-abdtoy.nn5kgugl3e tup. 10.00.11 /default-rack 4(4)  13.69GB 
© nno-abdtoy.nn5kgugl3etupo. o © 100020 /default-rack 4(4) 2748GB 
© hni-abdtoy.nn5kgugi3e t upo. © 100018 Idefault-rack 4(4)  2748GB 
© wn0-abdtoy.nnSkgugi3e1upo. 10.00.10 /default-rack 8(8) 27 48GB 


图 1-8 Ambari 的 机 器 列表 界面 


图 片 中 红色 的 数字 是 警告 信息 (Ambari Alert)。 先 看 左上 角 的 
Actions， 单 击 这 个 按钮 ， 就 可 以 看 到 Host level Action 的 选项 了 ， 其 实 
和 Service Level 是 类 似 的 ， 只 是 执行 的 范围 不 一 样 。 当 用 户 选择 All 
Hosts 一 Hosts 一 Start All Components 选项 时 , Ambari 就 会 将 所 有 Service 
的 所 有 模块 启动 。 


1.4.2 CLI TR 


命令 行 界面 (CLI，Command Line Interface) 是 提供 人 机 交互 的 有 
效 手 段 。 在 计算 机 诞生 之 初 ， 并 没有 图 形 化 界面 (GUI, Graphical User 
Interface)， 人 机 交互 只 能 依赖 于 命令 输入 , 操控 计算 机 需要 较 长 时 间 的 
学 习 成 本 ， 只 有 专业 人 士 才能 参与 。 随 着 苹果 公司 和 微软 推出 了 图 形 化 
界面 ， 人 机 交互 的 难度 降低 ， 普 通 的 计算 机 用 户 不 需要 再 去 学 习 复 杂 的 
命令 , 通过 鼠标 单 击 也 可 以 操控 计算 机 。 如 今 更 是 流行 了 触摸 方式 进行 
操控 ， 直 接 在 屏幕 上 用 手指 点 击 拖 忠 ， 连 儿童 都 能 快速 掌握 。 

但 是 在 运 维 管理 方面 , CLI 并 不 能 被 GUI BN, 这 主要 是 基于 两 方 
面 考虑 : 可 控 性 和 效率 。 通 过 GUI 完成 的 操作 ， 虽 然 易 于 学 习 ， 但 是 
在 复制 方面 存在 不 确定 性 , 当 有 一 个 操作 需要 在 多 个 环境 或 者 不 同时 间 
执行 时 ， 如 部 署 或 者 查 问题 ， 如 果 是 通过 CLI 输入 命令 来 执行 ， 可 以 完 
全 保证 一 致 性 ， 但 如 果 通 过 GUI 来 执行 ， 出 现 不 一 致 的 可 能 性 会 增加 。 
另外 ， 当 一 项 工作 如 部 署 环 境 ， 包 含 多 条 指令 ， 需 要 在 多 台 服 务 器 上 执 
行 ， 通 过 将 命令 集合 成 脚本 ， 再 将 脚本 分 发 到 多 台 服 务 器 上 执行 ， 可 以 
较 高 效率 地 完成 工作 。 

正 是 因为 如 此 ， 不 管 是 OS 如 Linux 或 Windows， 系 统 软件 Oracle 
或 者 WebLogic, 或 者 应 用 软件 一 般 都 会 提供 GUI 和 CLI 两 种 方式 , GUI 
用 于 直观 地 监控 或 者 操作 ，CLI 用 于 批量 命令 执行 或 者 严格 规定 操作 步 
又 的 执行 。 具 体 如 图 1-9 所 示 。 














图 1-9 Windows 命令 行 界面 
下 面 重 点 介绍 一 下 Linux 命令 行 界面 相关 的 工具 , 大 多 数 开源 软件 
都 在 Linux 上 运行 ， 可 接受 的 命令 也 都 是 类 似 Linux。 
操作 人 员 首 先 可 以 通过 SecureCRT 或 者 Putty 等 连接 软件 连接 到 服 
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务 器 ， 以 SecureCRT 为 例 ， 连 接 时 指定 连接 协议 、 主 机 名 、 端 口号 、 用 
户 名 或 者 密码 ， 如 图 1-10 所 示 。 
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Æ 1-10 SecureCRT 连接 Linux 
在 Linux 上 ， 常 用 的 排查 故障 的 主要 命令 如 表 1-15 所 示 。 
#115 ”CLI 主要 命令 











* — ff ĦA 
diff 比较 文件 的 差异 
grep 或 者 egrep 正则 表达 式 过 滤 文 件 中 的 关键 字 
find 查找 文件 
sed 通过 正则 表达 式 修改 文件 内 容 
df，du 查看 文件 系统 
free 查看 内 存 
ps 查看 进程 
top 查看 CPU、 内 存 、 进 程 等 整体 性 能 情况 
netstat 查看 网 络 连接 情况 
telnet, ping, traceroute 跟踪 网 络 连接 情况 
1.4.3 Ganglia 


Ganglia 是 UC Berkeley 发 起 的 一 个 开源 监视 项 目 ， 用 于 测量 海量 
节点 。 每 台 计 算 机 都 运行 一 个 收集 和 发 送 度量 数据 的 名 为 gmond 的 守 
护 进程 。 它 将 从 操作 系统 和 指定 主机 中 收集 。 接 收 所 有 度量 数据 的 主机 
可 以 显示 这 些 数据 并 且 可 以 将 这 些 数 据 的 精简 表单 传递 到 层次 结构 中 。 
gmond 带 来 的 系统 负载 非常 少 , 这 使 得 它 成 为 在 集群 中 各 台 计 算 机 上 运 
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行 的 一 段 代 码 ， 而 不 会 影响 用 户 性 能 。 
Ganglia 监控 套件 包括 3 个 主要 部 分 : gmond. gmetad 和 网 页 接口 
(通常 被 称 为 ganglia-web )。 
O gmond: 是 一 个 守护 进程 ， 运 行 在 每 一 个 需要 监测 的 节点 上 ， 
收集 监测 统计 ， 如 系统 负载 (load_one)、CPU 利用 率 。 它 同时 
也 会 发 送 用 户 通过 添加 C/Python 模块 来 自 定 义 的 指标 。 
Q gmetad: 也 是 一 个 守护 进程 ， 它 定期 检查 gmond， 从 那里 拉 取 
数据 ， 并 将 它们 的 指标 存储 在 RRD 存储 引擎 中 。 它 可 以 查询 
多 个 集群 并 聚合 指标 ， 也 被 用 于 生成 用 户 界面 的 Web 前 端 。 
D ganglia-Web: 安装 在 有 gmetad 运行 的 机 器 上 ， 以 便 读 取 RRD 
文件 。 集 群 是 主机 和 度量 数据 的 逻辑 分 组 ， 如 数据 库 服 务 器 ， 
网 页 服务 器 ， 生 产 、 测 试 、QA 等 ， 它 们 都 是 完全 分 开 的 ， 需 
要 为 每 个 集群 运行 单独 的 gmond 实例 。 
一 般 来 说 ， 每 个 集群 需要 一 个 接收 的 gmond， 每 个 网 站 需要 一 个 
gmetad. 


Ganglia 的 详细 介绍 可 见 本 书 性 能 管理 部 分 的 内 容 。 
1.4.4 Cloudera Manager 


Cloudera Manager 是 一 个 Hadoop 集群 的 综合 管理 平台 ,对 Cloudera 
Distribution Hadoop (HER CDH) 的 每 个 部 件 都 提供 了 细 粒 度 的 可 视 化 
和 控制 。 

Cloudera Manager 主要 有 以 下 功能 。 

口 自动 化 Hadoop 安装 过 程 ， 缩 短 部 署 时 间 。 

O 提供 实时 的 集群 概况 ,例如 节点 、 服 务 的 运行 状况 。 

口 提供 了 集中 的 中 央 控 制 台 对 集群 的 配置 进行 更 改 。 

口 包含 全 面 的 报告 和 诊断 工具 ， 帮 助 优化 性 能 和 利用 率 。 

Cloudera Manager 的 架构 如 图 1-11 所 示 ， 主 要 由 如 下 几 部 分 组 成 。 

O 服务 端 (/Server): Cloudera Manager 的 核心 。 主 要 用 于 管理 

Web Server 和 应 用 逻辑 。 它 用 于 安装 软件 ， 配 置 、 开 始 和 停止 
服务 ， 以 及 管理 服务 运行 的 集群 。 
O 代理 (/Agent): 安装 在 每 台 主 机 上 。 它 负责 启动 和 停止 的 进程 ， 
部 署 配置 ， 触 发 安装 和 监控 主机 。 

O ”数据库 (/Database): 存储 配置 和 监控 信息 。 通 常 可 以 在 一 个 
或 多 个 数据 库 服务 器 上 运行 多 个 逻辑 数据 库 。 例 如 ， 所 述 的 
Cloudera 管理 器 服务 和 监视 后 台 程 序 使 用 不 同 的 逻辑 数据 库 。 
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图 1-11 Cloudera Manager 架构 图 


口 、Cloudera Repository: Cloudera 软件 仓库 。 其 用 于 软件 分 发 。 
O 客户 端 (/Clients): 提供 了 一 个 与 Server 交互 的 接口 。 
回 ”管理 平台 (Admin Console): 提供 一 个 管理 员 管 理 集群 和 
Cloudera Manager 的 基于 网 页 的 交互 界面 。 
回 API: 为 开发 者 提供 了 创造 自 定义 Cloudera Manager 程序 的 
API。 
Cloudera Manager 提供 了 许多 监控 功能 ， 用 于 监测 群集 (主机 、 服 
务 守护 进程 ) 健 康 、 组 件 性 能 以 及 集群 中 运行 的 作业 的 性 能 和 资源 需求 。 
具体 包括 以 下 监控 功能 。 
COD 服务 监控 
查看 服务 和 角色 实例 级 别 健康 检查 的 结果 ， 并 通过 图 表 显示 ， 有 助 于 
诊断 问题 。 如 果 健 康 检查 发 现 某 个 组 件 的 状态 需要 特别 关注 甚至 已 经 出 现 
问题 ， 系 统 会 对 管理 员 应 该 采取 的 行动 提出 建议 。 同 时 ， 系 统管 理 员 还 可 
以 查看 服务 或 角色 上 操作 的 执行 历史 , 也 可 以 查看 配置 更 改 的 审计 日 志 。 
(20 主机 监控 
监控 群集 内 所 有 主机 的 有 关 信 息 ， 包 括 : 哪些 主机 上 线 或 下 线 ， 主 
机 上 目前 消耗 的 内 存 , 主机 上 运行 的 角色 实例 分 配 , 不同 的 机 架 上 的 主 
机 分 配 等 。 汇总 视图 中 显示 了 所 有 主机 群集 , 并 且 可 以 进一步 查看 单个 
主机 丰富 的 细节 ， 包 括 显 示 主 机 关键 指标 的 直观 图 表 。 
(3) 行为 监控 
Cloudera Manager 提供 了 列表 以 及 图 表 的 方式 来 查看 集群 上 进行 的 
活动 , 不 仅 显示 当前 正在 执行 的 任务 行为 , 还 可 以 通过 仪表 盘查 看 历史 
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活动 。 同 时 提供 了 各 个 作业 所 使 用 资源 的 许多 统计 ， 系统 管理 员 可 以 通 
过 比较 相似 任务 的 不 同性 能 数据 , 以 及 比较 查看 同一 任务 中 不 同 执行 的 
性 能 数据 来 诊断 性 能 问题 或 行为 问题 。 
(4) 事件 活动 
监控 界面 可 以 查看 事件 ,并 使 它们 用 于 报警 和 搜索 , 使 得 系统 管理 
员 可 以 深入 了 解 发生 在 集群 范围 内 所 有 相关 事件 的 历史 记录 。 系统 管理 
员 可 以 通过 时 间 范 围 、 服 务 、 主 机 、 关 键 字 等 字段 信息 过 滤 事 件 。 
(5) 报警 
通过 配置 Cloudera Manager 可 以 对 指定 的 事件 产生 警报 。 系统 通过 
管理 员 可 以 针对 关键 事件 配置 其 报警 阀 值 、 启 用 或 禁用 报警 等 ， 并 通过 
电子 邮件 或 者 通过 SNMP 的 事件 得 到 指定 的 警报 通知 。 系 统 也 可 以 暂 
时 抑制 报警 事件 ， 此 限制 可 以 基于 个 人 角色 、 服 务 、 主 机 ， 甚 至 整个 集 
群 配置 ， 使 得 进行 系统 维护 /故障 排除 时 不 会 产生 过 多 的 警报 流量 。 
(6) 审计 事件 
Cloudera Manager 记录 了 有 关 服 务 、 角 色 和 主机 的 生命 周期 的 事件 ， 如 
创建 角色 或 服务 、 修 改 角色 或 服务 配置 、 退 役 主机 和 运行 Cloudera Manager 
管理 服务 命令 等 。 系 统管 理 员 可 以 通过 管理 员 终 端 进行 查看 , 界面 提供 
了 按时 间 范 围 、 服 务 、 主 机 、 关 键 字 等 字段 信息 来 过 滤 审 计 事件 条 目 。 
(7) 可 视 化 的 时 间 序 列 数据 图 表 
系统 管理 员 可 以 通过 搜索 度量 数据 ， 系 统 将 根据 指定 规则 创建 数 
据 、 组 (方面 ) 数据 的 图 表 , 并 把 这 些 图 表 保 存 到 用 户 自 定义 的 仪表 板 。 
(8) 日 志 
可 结合 上 下 文 查看 系统 日 志 。 例 如 ,监控 服务 时 ， 可 以 轻松 地 单 击 
一 个 链接 ， 查 看 相关 的 特定 服务 的 日 志 条 目 。 如 查看 关于 用 户 的 活动 信 
息 ， 可 以 方便 地 查看 作业 运行 时 所 在 主机 上 发 生 的 相关 日 志 条 目 。 
(9) 报告 
Cloudera Manager 可 以 将 收集 到 的 历史 监控 数据 统计 生成 报表 ， 如 
按 目录 查看 集群 作业 活动 的 用 户 、 按 组 或 作业 ID 查看 有 关 用 户 的 磁盘 
利用 率 ， 用户 组 的 历史 信息 等 。 这些 报告 可 以 根据 选 定 的 时 间 段 (每 小 
时 、 每 天 、 每 周 等 ) 汇总 数据 ， 并 可 以 导出 为 XLS 或 CSV 文件 。 同 时 
系统 管理 员 还 可 以 管理 搜索 和 配额 等 HDFS 目录 设置 。 
Cloudera Manager 提供 多 达 102 类 监控 指标 ， 覆盖 所 有 的 服务 及 功 
能 ， 包 括 集群 硬件 使 用 情况 〈 网 络 、CPU、 内 存 以 及 硬盘 等 )、 服 务 状 
态 等 ， 同 时 指标 按 集群 级 别 、 主 机 级 别 、 用 户 级 别 以 及 表 / 目 录 级 别 等 
分 级 统计 ， 总 指标 项 上 万 个 ， 例 如 ， 集 群 指标 超过 3000 个 、HBase 系 


统 级 指标 超过 1000 ^. HDFS 系统 级 指标 超过 300 个 等 ， 相 关 监 控 指 
标 分 别 如 表 1-16 一 表 1-18 所 示 。 


表 1-16 HDFS 监控 指标 









































监 控 项 监控 项 描述 a J 

cpu 占用 率 | CPU 平均 占用 率 系统 级 /节点 级 
内 存 占用 率 | 内 存 平均 占用 率 系统 级 /节点 级 
系统 空间 。 | 总 空间 系统 级 /节点 级 
已 用 空间 。 | 已 用 空间 系统 级 /节点 级 
可 用 空间 。 | 剩余 空间 系统 级 /节点 级 
空间 使 用 率 | 已 用 空间 与 系统 空间 的 比值 系统 级 /节点 级 
读 流量 统计 周期 内 读 流量 统计 系统 级 /节点 级 
写 流量 统计 周期 内 写 流量 统计 系统 级 /节点 级 
读 IOPS 每 秒 进行 读 (1/O) 操 作 的 次 数 | 系统 级 /节点 级 
写 IOPS 每 秒 进行 写 (VO) 操作 的 次 数 系统 级 /节点 级 





表 1-17. MapReduce 监控 指标 








监 控 项 单 ”位 级 — s 
提交 作业 数 系统 级 
完成 作业 数 系统 级 
失败 作业 数 系统 级 
正在 运行 的 作业 数 系统 级 
Map 总 任务 数 系统 级 
Reduce 总 任务 数 系统 级 
Map 任务 完成 数 系统 级 
Reduce 任务 完成 数 系统 级 
正在 执行 的 Map 任务 数 系统 级 
正在 执行 的 Reduce 任务 数 系统 级 
平均 Map 任务 执行 时 间 系统 级 
平均 Reduce 任务 执行 时 间 系统 级 
最 小 Map 任务 执行 时 间 | $9 | 系统 级 
最 小 Reduce 任务 执行 时 间 系统 级 
最 大 Map 任务 执行 时 间 系统 级 
最 大 Reduce 任务 执行 时 间 系统 级 
Map 任务 执行 失败 数 个 系统 级 
Reduce 任务 执行 失败 数 系统 级 
Map 任务 执行 成 功 数 个 系统 级 
个 


Reduce 任务 执行 成 功 数 





表 1-18. HBase 监控 指标 


























监 控 项 级 A 
压缩 合并 队列 长 度 系统 级 
请 求 时 延 10 毫秒 次 数 系统 级 
请 求 时 延 2000 毫秒 次 数 系统 级 
请 求 时 延 2000 毫秒 以 上 次 数 系统 级 
i UO KA 节点 级 
写 IO 次 数 节点 级 
Lo 次 数 节点 级 
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在 排查 故障 的 过 程 中 ， 以 下 工具 也 能 提供 帮助 。 

(1) 文件 传输 

使 用 文件 传输 工具 ， 如 scp 命令 或 ftp 命令 ，FileZilla、WinSCP 软 
件 等 负责 文件 的 上 传 和 下 载 。 

(2) 网 络 抓 包 和 分 析 

在 排查 网 络 问题 时 ， 抓 包 是 最 有 效率 的 排查 方式 ，Linux 上 的 tcpdump 
和 Windows 平台 的 wireshark 是 比较 流行 的 抓 包 分 析 工 具 。 

(3) 日 志 分 析 

日 志 是 排查 故障 的 最 重要 依据 , 日 志 一 般 情况 下 都 是 有 一 定格 式 的 
记录 ， 如 Web 的 访问 日 志 一 般 格 式 是 时 间 、 源 也 、 访 问 方法 、URL、 
端口 、 状 态 码 、 大 小 、 响 应 时 间 等 。 

利用 日 志 分 析 工 具 可 以 方便 地 提取 日 志 中 的 有 效 信息 , 对 性 能 和 故 
障 点 做 深入 分 析 。 当 日 志 量 较 多 时 ， 也 可 以 借助 日 志 分 析 平 台 ， 如 ELK 
或 者 SPLUNK。 有 趣 的 是 ，ELK 和 SPLUNK 自身 也 是 一 种 大 数据 处 理 
系统 。 

(4) 批量 执行 命令 

在 定位 到 故障 之 后 , 需要 尽快 修复 , 如 果 故 障 涉及 的 服务 器 数量 比 
较 多 ， 可 以 借助 批量 执行 命令 的 工具 Ansible 完成 此 项 工作 。 

(5) Dump 分 析 

在 进程 故障 退出 之 后 ， 可 能 会 生成 thread dump 或 者 heap dump， 
dump 文件 是 比 日 志 还 要 详细 的 数据 ， 记 载 了 程序 运行 时 的 各 种 信息 ， 
可 以 通过 dump 分 析 工 具 对 dump 文件 进行 进一步 分 析 。 
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一 、 填 空 题 

1. CMDB 的 全 称 是 

2. 是 为 了 保证 所 有 人 员 (包括 项 目 成 员 、 配 置 管理 员 
和 CCBO 都 遵守 配置 管理 规范 ， 质 量 保证 人 员 要 定期 审计 配置 管理 工 
作 。 配置 审计 是 一 种 活动 , 是 质量 保证 人 员 的 工 
作 职 责 之 一 。 

3. 配置 管理 工作 包括 

二 、 问 答题 


1. CMDB 经 历 了 几 个 阶段 的 发 展 ? 

2. 配置 管理 和 资产 管理 有 什么 区 别 ? 

3. 云 时 代 的 CMDB 有 什么 特征 ? 

4. 请 简要 设计 你 所 理解 的 配置 管理 模型 。 
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系统 管理 及 日 常 巡 检 


IT 系统 管理 就 是 优化 IT 部 门 的 各 类 管理 流程 ， 保 证 能 够 按照 一 定 
的 服务 级 别 为 业务 部 门 或 客户 提供 高 质量 、 低 成 本 的 IT 服务 。 尽 管 系 
统管 理 及 运 维 主要 涉及 系统 管理 对 象 、 内 容 、 工 具 及 流程 制度 等 方面 的 
内 容 ， 但 大 数据 系统 由 于 其 固有 的 数据 量 大 、 机 器 规模 大 、 分 布 式 架构 
及 并 行 计算 等 特点 ， 相 应 地 ， 有 别 于 传统 运 维 , 大 数据 系统 的 运 维 管理 
须 通过 自动 化 手段 取代 大 量 重复 性 、 简 单 手工 操作 进行 资源 统一 调配 及 
管理 , 提升 系统 运 维 可 靠 性 ; 通过 提供 弹性 的 灵活 可 配置 的 服务 与 计算 ， 
提升 IT 资源 利用 率 ; 通过 构建 一 套 规范 化 的 完善 运 维 体系 ， 体 现 出 服 
务 生命 周期 的 管理 要 求 。 


2.1 系统 建设 


近年 来 , 大 数据 的 相关 技术 日 渐 成 熟 , 在 实际 业务 场景 中 的 运用 也 
逐渐 深入 ， 越 来 越 受 到 科技 界 、 企 业界 甚至 世界 各 国政 府 的 高 度 关 注 ， 
“大 数据 时 代 ” 已 然 到 来 。 与 传统 的 数据 处 理 和 数据 分 析 不 同 ， 大 数据 
的 特征 具有 5 个 V: Volume、Velocity、Variety、Veracity、Value， 分 别 
指数 据 量 大 、 数 据 流速 度 快 、 数 据 类 型 多 、 数 据 真实 性 的 存疑 、 数 据 价 
值 。 为 了 应 对 这 些 挑 战 ，Google、Facebook、Microsoft 等 一 大 批 公司 根 
据 自 身 不 同 的 业务 需求 ， 建 设 了 各 种 不 同 的 大 数据 系统 框架 。 同 时 ， 依 
托 新 型 大 数据 处 理 系统 ,大 数据 分 析 技 术 诸如 深度 学 习 、 可 视 化 机 器 计 
算 、 实 时 流 处 理 等 ， 也 在 飞速 发 展 ， 开 始 在 各 个 行业 和 领域 得 到 广泛 应 
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系统 管理 及 日 常 巡 检 


IT 系统 管理 就 是 优化 IT 部 门 的 各 类 管理 流程 ， 保 证 能 够 按照 一 定 
的 服务 级 别 为 业务 部 门 或 客户 提供 高 质量 、 低 成 本 的 IT 服务 。 尽 管 系 
统管 理 及 运 维 主要 涉及 系统 管理 对 象 、 内 容 、 工 具 及 流程 制度 等 方面 的 
内 容 ， 但 大 数据 系统 由 于 其 固有 的 数据 量 大 、 机 器 规模 大 、 分 布 式 架构 
及 并 行 计算 等 特点 ， 相 应 地 ， 有 别 于 传统 运 维 , 大 数据 系统 的 运 维 管理 
须 通过 自动 化 手段 取代 大 量 重复 性 、 简 单 手工 操作 进行 资源 统一 调配 及 
管理 , 提升 系统 运 维 可 靠 性 ; 通过 提供 弹性 的 灵活 可 配置 的 服务 与 计算 ， 
提升 IT 资源 利用 率 ; 通过 构建 一 套 规范 化 的 完善 运 维 体系 ， 体 现 出 服 
务 生命 周期 的 管理 要 求 。 


2.1 系统 建设 


近年 来 , 大 数据 的 相关 技术 日 渐 成 熟 , 在 实际 业务 场景 中 的 运用 也 
逐渐 深入 ， 越 来 越 受 到 科技 界 、 企 业界 甚至 世界 各 国政 府 的 高 度 关 注 ， 
“大 数据 时 代 ” 已 然 到 来 。 与 传统 的 数据 处 理 和 数据 分 析 不 同 ， 大 数据 
的 特征 具有 5 个 V: Volume、Velocity、Variety、Veracity、Value， 分 别 
指数 据 量 大 、 数 据 流速 度 快 、 数 据 类 型 多 、 数 据 真实 性 的 存疑 、 数 据 价 
值 。 为 了 应 对 这 些 挑 战 ，Google、Facebook、Microsoft 等 一 大 批 公司 根 
据 自 身 不 同 的 业务 需求 ， 建 设 了 各 种 不 同 的 大 数据 系统 框架 。 同 时 ， 依 
托 新 型 大 数据 处 理 系统 ,大 数据 分 析 技 术 诸如 深度 学 习 、 可 视 化 机 器 计 
算 、 实 时 流 处 理 等 ， 也 在 飞速 发 展 ， 开 始 在 各 个 行业 和 领域 得 到 广泛 应 
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用 。 一 般 来 说 ， 大 数据 系统 应 该 具有 以 下 4 个 特点 。 

D 弹性 容量 。 大 数据 最 显著 的 特征 是 体 量 大 ， 增 长 快 ， 这 就 要 求 

大 数据 的 存储 系统 具备 容量 大 、 易 扩展 的 弹性 容量 。 

OQ 高 性 能 。 大 数据 的 另 一 大 特征 是 高 速 ， 这 就 要 求 大 数据 系统 能 

够 快速 吞吐 数据 ， 具 有 较 高 的 响应 速度 。 

OQ ”集成 化 。 由 于 大 数据 来 源 广泛 , 加 上 需要 访问 各 种 类 型 的 数据 ， 

且 数 据 的 处 理 和 分 析 方式 各 有 不 同 ， 所 以 大 数据 系统 要 有 集成 

化 的 数据 接口 。 

O 自动化。 大 数据 的 处 理 流程 、 处 理 方式 比较 复杂 ， 使 得 人 为 地 
维护 大 数据 系统 变 得 不 太 可 能 。 这 就 要 求 大 数据 系统 进行 自动 
化 管理 。 


2.1.1 技术 方案 





一 般 来 说 ， 大 数据 系统 都 具有 如 图 2-1 所 示 的 架构 模式 。 
业务 系统 层 
数据 计算 层 





数据 收集 /存储 层 


图 2-1 大 数据 系统 架构 


O 数据 收集 /存储 层 : 主要 包括 两 个 部 分 , 一 是 收集 实时 数据 或 已 
有 的 存储 数据 (包括 非 结构 化 的 数据 和 结构 化 的 数据 )， 二 是 
对 这 些 数据 进行 存储 ， 通 常 都 是 采用 分 布 式 文件 系统 ， 可 供 海 
量 数据 高 吞吐 访问 〈 查 询 、 检 索 等 )， 同 时 具有 良好 的 容错 性 。 

O 资源 管理 层 为 上 层 应 用 提供 统一 的 资源 管理 和 资源 调度 ， 以 
便 提 高 资源 利用 率 。 有 具体 来 说 ， 包 括 资源 管理 器 和 任务 管理 器 
两 种 ， 资 源 管理 器 管理 跨 应 用 程序 的 资源 使 用 ， 任 务 管理 器 负 
责 管 理 任务 的 执行 。 

O 数据 计算 层 ， 是 大 数据 系统 的 核心 ， 决 定 了 整个 系统 的 性 能 。 
计算 层 通过 资源 管理 层 来 获取 计算 所 需 的 资源 ， 进 行 并 行 计 
Ho 计算 层 的 结构 取决 于 编程 模型 , 但 一 般 都 包括 Map (映射) 
和 Reduce (14) 两 个 部 分 ， 具 体操 作 是 : 通过 映射 ， 分 发 
针对 大 数据 集 的 大 规模 操作 ， 再 进行 并 行 计算 ， 接 着 通过 归 
约 ， 周 期 性 反馈 每 个 节点 的 工作 和 最 新 状态 。 
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口 业务 系统 层 : 主要 是 根据 具体 的 业务 逻辑 对 大 数据 计算 分 析出 
的 结果 进行 展示 ， 服 务 于 具体 的 业务 需求 。 
根据 不 同类 型 的 源 数据 和 不 同行 业 自身 的 业务 具体 需求 , 大 数据 系 
统 的 具体 技术 方案 也 不 同 。 目前, 大 数据 系统 主要 的 应 用 场景 和 典型 的 
大 数据 系统 技术 方案 有 以 下 3 种 。 


1. 静态 数据 的 批量 处 理 : Hadoop 


静态 数据 存储 在 硬盘 中 ， 极 少 更 新 并 且 存 储 时 间 长 ， 数 据 量 非常 大 ， 
涉及 核心 业务 数据 但 价值 密度 较 低 。 典 型 的 场景 诸如 搜索 引擎 抓 取 的 数 
据 、 电 子 商 务 交易 数据 、 气 象 地 理 数 据 、 医 疗 卫 生 数 据 等 。 这 些 数据 往往 
体 量 超过 PB (1024TB) 级别 ， 需 要 利用 大 数据 系统 进行 分 析 、 整 合 ， 从 
中 提取 出 有 价值 的 信息 。 同 时 ,静态 数据 的 大 批量 处 理 需 要 的 时 间 很 长 ， 
占用 的 资源 较 多 ， 比 较 适 合 进行 流程 相对 比较 成 熟 的 数据 分 析 和 处 理 。 

Hadoop 用 于 批量 处 理 大 规模 的 静态 数据 ， 由 Apache 基金 会 开发 ， 
是 开源 的 分 布 式 系统 基础 架构 。 系统 运 行 效率 得 到 大 幅 提 高 的 原因 就 在 
于 实现 了 大 规模 并 行 计算 。Hadoop 主要 由 HDFS、YARN、MapReduce 
这 3 部 分 组 成 。 数 据 收集 /存储 层 存 储 静 态 数 据 ， 资 源 管理 平台 调度 资源 ， 
数据 计算 层 把 计算 逻辑 分 配 到 各 个 数据 节点 ， 进 行 数据 计算 。Hadoop dE 
常 适合 大 型 企业 的 大 型 计算 ， 因 此 得 到 了 广泛 的 推广 ， 是 最 流行 、 最 成 熟 
的 大 数据 框架 。 以 Hadoop 为 基础 建立 了 很 多 相关 开源 的 项 目 ， 形 成 了 良 
好 的 Hadoop 生态 圈 ， 为 Hadoop 提供 了 大 量 有 用 的 功能 增强 组 件 。 


2. 流 式 数据 的 实时 处 理 : Storm 


流 式 数据 的 本 质 是 一 个 无 穷 的 数据 序列 ， 由 于 来 源 众 多 复杂 , 序列 
中 的 数据 格式 可 以 差异 非常 大 。 流 式 数 据 一 般 都 具有 时 序 性 。 典 型 的 场 
景 诸如 Web 数据 采集 、 社 交 动 态 数据 、 智 能 交通 数据 、 物 联网 传感器 数 
据 、 银 行 流水 数据 、 交 易 市 场 交易 数据 等 。 即 便 流 式 数据 会 根据 不 同 场 景 
体现 不 一 样 的 细节 特征 ， 但 大 多 数 流 式 数据 都 具有 共性 : 连续 的 数据 流 、 
复杂 的 来 源 、 各 异 的 数据 格式 、 不 统一 的 顺序 、 较 低 的 数据 价值 密度 。 

对 于 流 式 数据 的 实时 处 理 ，Storm 是 最 典型 的 框架 。Storm 是 一 个 
开源 的 实时 数据 处 理 框架 ， 如 图 2-2 所 示 ， 与 Hodoop 异曲同工 。 利 用 
Kafka 对 流 式 数据 进行 收集 , 通过 YARN 进行 资源 调配 , 最 后 利用 Storm 
将 处 理 结果 分 发 至 不 同类 型 的 组 件 。Storm 集群 大 幅 降 低 了 并 行 批 处 理 
与 实时 处 理 的 复杂 程度 ， 原 理 是 : Spout 组 件 先 处 理 输入 流 ， 再 将 数据 
传输 给 Bolt 组 件 ，Bolt 组 件 再 以 指定 的 方式 处 理 。 通 过 这 个 流程 ， 可 
以 把 Storm 集群 卡 看 作 Bolt 组 件 组 成 的 拓扑 〈Topology)， 一 个 Storm 
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作业 只 需 实现 一 个 链 ， 就 可 以 满足 绝 大 部 分 的 流 式 作业 需求 。 


数据 计算 层 : Storm 


资源 管理 层 : YARN 
数据 收集 /存储 层 : Kafka 





图 2-2 Storm 架构 
3. 交互 式 数据 : Spark 


交互 式 数据 是 系统 与 管理 员 交 互 产 生 的 数据 ， 具体 表现 为 : 操作 人 
员 以 对 话 的 方式 提出 数据 请 求 ,系统 自动 提示 数据 信息 ， 引 导 操 作 人 员 
直到 获得 最 后 处 理 结果 。 典 型 的 场景 诸如 数据 钻 取 、 基 于 OLAP 的 商务 
智能 、 互 联网 应 用 的 人 机 交互 数据 等 。 交 互 式 数据 存储 在 系统 中 ， 能 够 
被 及 时 处 理 修 改 ， 同 时 ， 处 理 结 果 可 以 立刻 被 使 用 。 交 互 式 数据 处 理 方 
式 的 优点 在 于 保证 及 时 处 理 信息 ， 从 而 确保 交互 方式 的 连贯 性 ， 然 而 在 
高 频次 的 交互 场景 下 ,这 种 数据 类 型 也 变 得 更 加 多 样 ， 此 时 传统 的 数据 
库 就 无 法 响应 实时 性 需求 ， 需 要 NoSQL 类 型 的 数据 库 加 以 补充 。 


2.1.2 部署 实 施 


针对 不 同 的 源 数据 和 业务 需求 ， 需 要 部 署 不 同 的 技术 框架 。 而 
Hadoop 是 其 中 最 受 欢 迎 、 最 成 熟 、 应 用 最 广 的 大 数据 系统 架构 ， 其 他 
的 大 数据 架构 很 多 都 是 基于 Hadoop 进行 扩展 和 优化 ， 因 此 本 节 主 要 介 
绍 Hadoop 架构 的 部 署 实施 。 

Hadoop 由 Apache 基金 会 开源 发 布 并 维护 。 原 生 的 Hadoop 架构 存 
在 版 本 管理 混乱 、 兼 容 性 差 、 安 全 性 低 、 升 级 复杂 、 部 署 烦琐 等 问题 ， 
不 太 适 合 企业 级 应 用 。 基 于 原生 的 Hadoop 框架 ， 很 多 公司 推出 了 面向 
企业 的 Hadoop 发 行 版 ， 这 些 版 本 提高 了 稳定 性 ， 强 化 了 部 分 功能 ， 实 
现 了 定制 化 ， 适 合 企 业 大 规模 部 署 。 目 前 主流 的 Hadoop 发 行商 有 
Cloudera 和 Hortonworks 。 

Cloudera 公司 是 最 早 将 Hadoop 商业 化 的 公司 ， 推 出 了 Hadoop 发 
行 版 CDH (Cloudera Distribution Hadoop )， 增 强 了 Hadoop 的 核心 与 内 
部 开发 的 插件 技术 ， 例 如 基于 Hadoop 的 ImpalaSQL 查询 引擎 ，CDH 
完全 开源 ， 同 时 Cloudera 公司 还 提供 CDH 商业 版 ， 增 强 了 部 分 功能 并 
提供 服务 支持 。 
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Hortonworks 是 完全 开源 Apache Hadoop 的 独家 供应 商 。Hortonworks 
推出 了 发 行 版 HDP (Hortonworks Data Platform)，HDP 基于 Apache 
HCatalog 的 基础 数据 服务 特性 进行 开发 及 应 用 。 除 了 常规 的 HDFS 和 
MapReduce 组 件 ，HDP 还 包括 了 Ambari， 用 来 提供 端 到 端的 管理 ， 值 
得 一 提 的 是 ，Ambari 的 Web 界面 在 部 署 操作 集群 方面 操作 性 很 高 。 

因此 ， 本 节 之 后 的 安装 部 署 主要 介绍 Hadoop RIT HDP. 一 般 来 
说 ， 安 装 部 署 HDP 需要 经 过 以 下 步 又。 

(D 确定 主机 的 系统 环境 、 硬 件 条 件 满 足 Hadoop 框架 的 要 求 ( 具 
体 要 求 见 附录 B)。 

@ 对 系统 的 环境 进行 配置 : 

口 安装 配置 时 间 同 步 服务 。 

口 安装 配置 SSH 无 密码 访问 。 

口 配置 Linux 访问 。 

@ 下 载 安 装 Ambari。 

@ 配置 Ambari。 

© 在 Ambari 的 Web 界面 中 配置 集群 。 

安装 步骤 和 shell 命令 如 下 (系统 环境 基于 64 位 Linux Ubuntu 16.04 LTS). 


1. 安装 和 配置 时 间 同 步 服务 


网 络 时 间 协 议 (NTP, Network Time Protocol) 用 来 同步 网 络 内 每 
个 服务 器 的 时 间 。 

(1) 在 每 个 主机 中 安装 NTP 

在 ubuntu 16.04 中 ， 执 行 命令 : 


apt install ntp 
在 RHEL/CentOS/Oracle 中 ， 执 行 命令 : 
yum install -y ntp 


(2) 启动 NTP 服务 
在 ubuntu 中 ， 执 行 命令 : 


letc/init.d/ntp start 

在 RHEL/CentOS/Oracle 6 中 ， 执 行 命令 : 
service ntp start 

在 RHEL/CentOS/Oracle 7 中 ， 执 行 命令 : 


systemctl start ntpd 
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2. 安装 和 配置 SSH 


Hadoop 是 通过 SSH 通信 的 ， 需 要 安装 SSH。 
(1) 安装 openssh-server 


sudo apt install openssh-server 
(2) 在 server 上 配置 SSH 无 密码 访问 
ssh-keygen -trsa — & SSH 生成 RSA 专用 密 钥 


直接 按 Enter 键 采用 默认 路 径 , 设 定 空 密码 并 确认 , 生成 两 个 文件 : 
id rsa CfA 48) fil id rsapub 〈 公 钥 )， 执 行 命令 查看 : 


cd ~/.ssh 
Is 


将 id rsa.pub 追加 到 authorized keys 授权 文件 中 : 

cat id_rsa.pub »»authorized keys 

同时 ， 将 id rsa.pub 复制 到 其 他 目标 主机 的 root 账户 下 ， 路 径 如 下 : 
.ssh/id rsa.pub 


确保 server 能 连接 到 其 他 主机 ， 执 行 如 下 命令 : 


ssh root@<remote.target.host> 


根据 不 同 的 SSH 版 本 , 有 可 能 需要 修改 .ssh 目录 和 authorized keys 
的 权限 : 


chmod 700 ~/.ssh 
chmod 600 ~/.ssh/authorized_keys 


3. 配置 Linux 访问 
(1) 开启 http 服务 

service httpd restart 
(2) 关闭 防火 墙 

service iptables stop 


(3) 关闭 SELinux 
注意 : 改 配置 文件 需要 重启 计算 机 才能 生效 。 





vi /etc/sysconfig/selinux 
SELINUX=disabled 
setenforce 0 


4. 下 载 安装 Ambari 


(1) 以 root 用 户 登 录 
依次 执行 以 下 命令 : 
wget -O /etc/apt/sources.list.d/ambari.list http: //public- repo-1.hortonworks.com/ 
ambari/ubuntu16/2.x/updates/2.5.0.3/ambari.list 


apt-key adv —recv-keys --keyserver keyserver.ubuntu.com B9733A7A07513CAD 
apt-get update 


(2) 检查 安装 包 是 否 下 载 成 功 


apt-cache showpkg ambari-server 
apt-cache showpkg ambari-agent 
apt-cache showpkg ambari-metrics-assembly 


(3) 安装 Ambari 


apt install ambari-server 


默认 安装 PostgreSQL Ambari Database. 
5. 配置 Ambari 


ambari-server setup 


根据 提示 进行 相关 的 配置 。 

口 dE "Customize user account for ambari-server daemon”, 选择 
"n", 默认 以 root 身份 运行 。 

口 提示 “Select a JDK version to download”, 选择 “1”, 安装 Oracle 

JDK 1.8. 

YE “Accept the Oracle JDK license", 4$ “yes”. 

O 提示 “Enter advanced database configuration", WF% “n”, 使 用 

默认 的 PostgreSQL 数据 库 〈 数 据 库 名 为 ambari， 默 认 的 用 户 

名 为 ambari， 密 码 为 bigdata)。 


口 提示 “Proceed with configuring remote database connection 


(m) 





properties”, 17% "y". 


6. 在 Ambari 中 配置 集群 
(1) 开启 服务 

执行 命令 : 

ambari-server start 

查看 运行 状态 : 

ambari-server status 


(2) 登录 Ambari 
在 浏览 器 中 输入 地 址 : 


http: //<your.ambari.server>: 8080 


其 中 ，<your.ambari.server> 是 安装 Ambari 的 主机 的 IP 地 址 。 
在 登录 界面 上 输入 用 户 名 和 密码 (默认 admin). 
(3) 配置 集群 
在 欢迎 页 面 ， 选 择 Launch Install Wizard， 根 据 安装 向 导 配 置 集群 。 


2.1.3 ”测试 验收 


测试 验收 是 建设 大 数据 系统 的 最 后 一 步 。 交 付 测试 放 在 开发 阶段 的 
单元 测试 、 集 成 测试 和 系统 测试 之 后 ， 主 要 是 为 了 确保 系统 稳定 可 靠 ， 
以 保证 正式 交付 运营 。 做 好 大 数据 系统 的 测试 验收 需要 根据 事先 制订 的 
测试 计划 和 内 容 ， 进 行 全 方位 的 测试 。 

1. 功能 测试 


作为 一 个 应 用 系统 ,实现 既定 功能 是 最 基本 的 要 求 。 功 能 测试 基于 
实际 的 业务 场景 , 设计 一 些 大 数据 系统 的 测试 用 例 , 测试 系统 是 否 运转 
正常 。 功 能 测试 需要 考虑 到 并 全 部 覆盖 系统 所 用 的 API 和 功能 。 


2. 性 能 测试 


大 数据 系统 的 性 能 由 任务 完成 时 间 、 数 据 吞 吐 量 、 内 存 占 用 率 等 构 
成 。 这 些 指标 从 不 同 维度 反映 了 大 数据 系统 的 处 理 能 力 、 资 源 利用 效率 
等 性 能 。 性 能 测试 通常 采用 自动 化 的 方式 进行 , 通过 性 能 监控 工具 来 监 
测 系统 运 行 状态 和 性 能 指标 。 除了 常规 测试 , 性 能 测试 还 应 该 在 不 同 负 
载 情 况 下 测试 系统 性 能 ， 保 证 系统 的 正常 负载 。 

3. 可 用 性 测试 


高 可 用 性 是 大 数据 系统 的 主要 特性 之 一 。 因 为 基于 大 数据 系统 的 数 
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(2.2 ”系统 管理 对 象 


据 应 用 业务 要 求 系统 长 时 间 无 故障 地 连贯 运行 ， 对 连续 性 的 要 求 非常 
高 ， 需 要 手动 测试 。 常 见 的 可 用 性 指标 包括 平均 维修 时 间 CMTTRO 和 
平均 无 故障 时 间 (MTTF)。 

4. 容错 性 测试 

容错 性 是 大 数据 系统 另 一 个 重要 的 特性 。 容错 性 测试 具体 指 检测 系 
统 在 异常 条 件 下 ， 以 不 影响 整体 性 能 为 前 提 (同时 保证 系统 继续 运行 )， 
能 否 从 部 分 失效 中 自动 恢复 。 容 错 性 测试 的 方案 视 实际 使 用 场景 而 定 ， 
且 需 要 手动 测试 。 

5. 稳定 性 测试 

在 大 数据 系统 长 期 运行 的 过 程 中 , 稳定 性 非常 重要 。 稳定 性 测试 的 


目的 是 保证 系统 长 时 间 正 常 运 行 。 推 荐 自动 化 测试 工具 ， 如 10Zone、 
POSTMAR， 测 试 系统 的 负载 和 功能 。 





大 数据 系统 是 一 个 复杂 的 、 提 供 不 同 阶段 的 数据 处 理 功 能 的 系统 。 
本 章 将 大 数据 系统 分 为 4 个 模块 进行 说 明 ， 包 含 系 统 硬件 、 系 统 软件 、 
系统 数据 和 IT 供应 商 。 


2.2.1 系统 管理 对 象 


大 数据 系统 可 以 分 为 系统 硬件 基础 层 、 系 统 软件 实施 层 和 系统 数据 
应 用 层 3 个 层级 ， 如 图 2-3 所 示 。 


系统 数据 应 用 层 


将 多 种 工具 封装 并 在 硬件 资源 池 


系统 软件 实施 层 中 运行 ， 包 括 数据 集成 、 数 据 管 


理 、 数 据 模型 编程 等 工具 


= 出 各 种 硬件 资源 构成 ， 也 可 以 利 
系统 硬件 基础 层 用 虚拟 化 技术 辅助 组 织 构建 





图 2-3 大 数据 系统 架构 体系 
1. 系统 硬件 基础 层 
主要 由 各 种 硬件 资源 构成 , 也 可 以 利用 虚拟 化 技术 ,辅助 组 织 系统 


的 硬件 基础 设施 。 这 些 资源 通过 特定 的 服务 级 别 协定 方式 供给 ,系统 硬 
件 的 资源 分 配 需 要 满足 大 数据 需求 , 同时 保证 最 大 化 系统 利用 率 和 以 简 
单 化 的 操作 方式 提高 资源 使 用 效率 。 


2. 系统 软件 实施 层 


系统 软件 实施 层 将 多 种 工具 封装 后 ,在 硬件 资源 池 中 一 起 运行 。 典 
型 的 工具 有 数据 集成 、 数 据 管 理 和 数据 模型 编程 等 。 数 据 集成 是 指 通过 
对 数据 进行 预 处 理 后 ， 将 从 各 互相 独立 的 数据 源 中 获取 到 的 不 同 数据 ， 
以 统一 的 形式 集成 在 一 起 。 数 据 管理 是 指 提供 数据 的 持久 存储 、 高 效 管 
理 、 简 化 操作 的 机 制 和 工具 。 数 据 模型 编程 是 指 对 数据 进行 应 用 逻辑 抽 
象 ， 为 数据 分 析 应 用 提供 便利 。 


3. 系统 数据 应 用 层 


利用 编程 模型 提供 的 接口 实现 各 种 功能 , 同时 可 以 通过 组 合 各 种 分 
析 方 法 ， 定 制 化 开发 出 不 同 领域 的 相关 大 数据 系统 应 用 。 


2.2.2 系统 软件 


传统 的 数据 管理 和 分 析 系 统 软件 ， 以 关系 型 数据 为 主 。 这 些 系统 在 
处 理 结 构 化 数据 时 ， 有 着 优异 的 性 能 ， 并 且 关 系 型 数据 管理 系统 可 以 有 
垂直 式 扩展 , 方法 是 通过 增加 硬件 数量 , 但 它 无 法 通过 并 行 增加 硬件 的 
方法 来 弥补 不 足 。 所 以 传统 关系 型 数据 处 理 系 统 在 现今 大 量 数据 和 异 构 
性 的 情况 下 ， 无 法 有 效 支持 “大 数据 ”的 分 析 处 理工 作 。 为 了 应 对 这 些 
挑战 , 我 们 通常 会 选择 分 布 式 的 架构 搭建 大 数据 分 析 系 统 ,部 署 过 程 主 
要 可 分 为 以 下 几 部 分 。 


1. 底层 操作 系统 


这 里 推荐 Linux/UNIX 类 的 底层 操作 系统 。 从 确保 大 数据 系统 的 稳 
定性 角度 ， 需 要 对 磁盘 实施 RAID， 并 且 在 挂 载 数据 存储 节点 时 ， 根 据 
实际 的 需求 进行 配置 。 

2. 分 布 式 计算 系统 架构 


面向 大 数据 的 分 布 式 计算 系统 ， 其 架构 如 图 2-3 所 示 ， 人 往往 包含 自 
底 向 上 的 多 个 层次 : 硬件 基础 层 、 软 件 实施 层 、 数 据 应 用 层 等 。 

(1) 硬件 基础 层 

硬件 基础 层 包含 数据 存储 层 和 资源 管理 及 分 布 式 协调 层 。 数 据 存储 
层 负 责 将 大 规模 数据 (PB 级 甚至 更 大 ) 以 数据 块 的 形式 保存 在 分 布 式 
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环境 中 , 利用 数据 本 地 性 实现 分 布 式 并 行 处 理 。 数 据 存储 层 一 般 包括 分 
布 式 文件 系统 、 分 布 式 数据 库 、 跨 数据 中 心 的 超级 存储 系统 等 。 其 中 ， 
分 布 式 文件 系统 是 其 他 存储 模块 的 基石 , 提供 了 数据 元 余 备 份 、 分 布 式 
存储 的 自动 负载 均衡 、 失 效 节点 检测 等 分 布 式 存储 所 需 的 基础 功能 。 常 
见 的 分 布 式 文件 系统 包括 Google 的 GFS, HDFS, Ceph 等 ， 它 们 均 利 
用 大 量 商 业 PC 来 搭建 存储 集群 ， 实 现 了 存储 的 横向 扩展 ， 并 提供 目录 
服务 以 屏蔽 分 布 式 细节 。 分 布 式 数据 库 构 建 于 分 布 式 文件 系统 之 上 , 针 
对 结构 化 、 半 结构 化 的 数据 采用 一 定 存 储 格式 进行 保存 ,实现 高 效 的 增 
删 查 改 操作 。 存 储 格 式 一 般 包括 行 式 存 储 、 列 式 存储 、 混 合式 存储 等 ， 
其 中 列 式 存储 、 混 合式 存储 因 其 特殊 优点 被 广泛 使 用 。 列 式 存储 即 按照 
列 对 所 有 记录 进行 垂直 划分 ， 以 实现 对 具体 列 簇 的 快速 查询 。 典 型 例子 
包括 Google 的 BigTable, Dremel, 开源 的 HBase 等 。 混 合式 存储 方案 包 
dá RCFile、ORCFile、Parquet 等 ， 它 融合 了 行 式 存储 和 列 式 存储 各 自 的 
优点 ， 在 保证 同一 记录 的 所 有 字段 在 同一 节点 的 同时 ， 又 支持 对 特定 列 
的 快速 读 取 。 跨 数 据 中 心 的 超级 存储 系统 的 典型 例子 Google 的 Spanner, 
它 可 以 将 海量 数据 自动 部 署 到 全 球 数 百 个 数据 中 心 , 并 通过 细 粒 度 的 数 
据 备份 机 制 提高 数据 的 可 用 性 及 各 个 数据 中 心 的 数据 本 地 性 。 

资源 管理 及 分 布 式 协调 层 负责 将 底层 众多 主机 组 织 成 集群 , 通过 虚 
拟 化 技术 向 上 层 提供 分 布 式 节点 资源 , 并 为 分 布 式 节点 提供 数据 一 致 性 
保证 。 常 见 的 节点 资源 包括 内 存 、CPU、 网 络 带 宽 、 磁 盘 IO 等 。 资 源 
管理 包括 资源 监控 与 资源 调度 两 块 内 容 。 资源 监控 负责 从 集群 内 各 节点 
收集 和 更 新 资源 状态 信息 ， 并 将 其 最 新 状况 反映 到 资源 池 中 , 资源 池 列 
出 了 目前 可 用 的 系统 资源 。 资 源 调度 负责 以 一 定 的 调度 策略 将 资源 池 中 
的 可 用 资源 分 配给 各 个 作业 ， 常 用 的 调度 策略 包括 先进 先 出 (FIFO), 
公平 调度 、 能 力 优先 调度 、 低 延迟 调度 等 。 在 大 数据 系统 中 ， 资 源 调度 
需要 考虑 数据 本 地 性 (Data Locality) 的 问题 ， 即 将 处 理 任务 指派 到 数 
据 所 在 的 节点 进行 ,而 不 是 反 过 来 ,这 样 能 够 尽 可 能 地 避免 不 必要 的 网 
络 传输 开销 。 目 前 ， 业 界 常见 的 资源 管理 工具 有 Hadoop YARN (Yet Another 
Resource Negotiator), Mesos 等 。YARN 是 本 书 推荐 的 一 款 支 持 分 布 式 
的 集群 资源 管理 工具 ， 主 要 是 因为 YARN 的 核心 构建 思想 就 是 将 
JobTracker 和 TaskTacker 进行 分 离 ， 通 过 全 局 资源 管理 器 
ResourceManager 的 方式 大 大 减 小 了 JobTracker 的 资源 消耗 ， 并 且 让 监 
测 每 一 个 Job 子 任务 (tasks) 状态 的 程序 分 布 式 化 了 ， 从 而 更 安全 、 更 
优美 。 分 布 式 协调 主要 用 于 解决 分 布 式 环境 下 各 个 节点 间 数 据 的 一 致 性 
问题 ， 例 如 当主 节点 失效 时 ， 如 何 快速 从 备份 机 中 选 出 新 的 主 节点 ; 当 


集群 的 某 个 配置 项 发 生 改变 时 ， 如 何 通知 到 被 影响 的 其 他 节点 ; 集群 如 
何 感知 有 新 的 节点 加 入 ,如 此 等 等 .分布 式 协调 的 理论 基础 主要 是 Paxos 
一 致 性 协议 ，Paxos 协议 解决 了 一 个 分 布 式 系统 如 何 就 某 个 值 ( 决 议 》 
达成 一 致 的 问题 。 一 个 典型 的 场景 是 ， 在 一 个 分 布 式 数据 库 系统 中 ， 如 
果 各 节点 的 初始 状态 一 致 , 每 个 节点 执行 相同 的 操作 序列 ,那么 他 们 最 
后 能 得 到 一 个 一 致 的 状态 。 为 保证 每 个 节点 执行 相同 的 命令 序列 , 需要 
在 每 一 条 指令 上 执行 一 个 “一 致 性 算法 ”以 保证 每 个 节点 看 到 的 指令 一 
致 。Paxos 通过 分 布 式 节点 的 相互 通信 并 投票 ， 从 而 对 某 个 决定 达成 一 
致 。 常 见 的 分 布 式 协调 工具 包括 Google 研发 的 Chubby 锁 服 务 ， 以 及 开 
源 的 ZooKeeper 等 。ZooKeeper 是 本 书 推荐 的 一 款 支持 分 布 式 协调 管理 
TA, 主要 是 因为 ZooKeeper 是 Google 的 Chubby 一 个 开源 的 实现 ， 以 
Fast Paxos 算法 为 基础 ， 简 单 易 用 、 人 性 能 高 效 ， 同 时 提供 配置 维护 、 域 
名 服务 、 分 布 式 同步 、 组 服务 等 多 样 性 的 系统 功能 。 

(2) 软件 实施 层 

软件 实施 层 负 责 实现 大 数据 的 分 布 式 并 行 处 理 , 主要 有 批 处 理 、 图 
处 理 、 流 处 理 等 几 种 模式 。MapReduce 是 常见 的 批 处 理 框架 ， 它 具有 很 
强 的 可 扩展 性 与 容错 性 ， 但 其 缺少 对 数据 处 理 的 进一步 抽象 。 微 软 的 
Dryad 是 一 种 基于 有 向 无 环 图 (DAG) 的 批 处 理 框架 。 当 前 业界 十 分 流 
行 的 批 处 理 框架 主要 包括 Spark 等 ，Spark 通过 RDD〔 弹 性 分 布 式 数据 
集 ， 是 分 布 式 内 存 的 一 个 抽象 概念 ) 模型 实现 了 内 存 计 算 ， 并 丰富 了 数 
据 处 理 的 语义 。Storm、Spark Streaming、Flink 等 是 典型 的 分 布 式 流 处 
理 框架 ， 支 持 大 规模 实时 数据 的 快速 分 析 。Pregel、GraphLab 、GraphX 
等 是 常见 的 图 处 理 框 架 ， 支 持 大 规模 图 数据 的 迭代 计算 。 

(3) 数据 应 用 层 

数据 应 用 层 结合 具体 的 应 用 场景 ， 利 用 底层 的 数据 存储 与 处 理 框架 
实现 特定 的 功能 。 数 据 应 用 层 主 要 包括 分 布 式 搜索 引擎 ， 主 要 实现 对 数 
据 的 快速 检索 ， 例 如 基于 Lucene 的 开源 分 布 式 搜索 引擎 ElasticSearch， 
它 具 有 构建 在 RESTful Web 接口 之 上 , 具有 分 布 式 多 用 户 能 力 ; 可 视 化 
TR, 主要 实现 分 析 图 表 的 制作 和 数据 的 可 视 化 展现 , 主要 的 商业 化 产 
品 为 tableau, Plotly 等 , 开源 产品 , 例如 Arborjs、Chroma.js、OpenRefine 
等 ;即席 查询 工具 ， 主 要 实现 对 数据 的 快速 查询 并 提供 类 SQL 的 语言 
支持 ， 例 如 集成 了 底层 的 HBase、 MapReduce 的 Hive. Presto 等 ; 多 维 
分 析 工 具 ， 主 要 实现 面向 数据 仓库 的 多 维 分 析 展 现 ， 如 Kylin 等 。 

分 布 式 计算 系统 框架 的 构建 , 需要 根据 实际 需求 和 所 要 实现 的 业务 
场景 有 机 结合 起 来 统筹 规划 。 上 面 提 到 的 很 多 大 数据 组 件 ， 如何 将 其 有 
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效 组 合 高 效 完 成 某 个 任务 并 不 是 一 件 简单 的 工作 , 需要 综合 考虑 各 自 的 
整体 TT 架构 规划 和 对 于 开源 系统 组 件 的 掌控 能 力 而 进行 相应 的 实施 。 


3. 数据 分 析 算法 及 工具 


数据 分 析 的 两 个 主要 阶段 是 数据 预 处 理 和 数据 建 模 分 析 。 在 建 模 分 
析 之 前 先 需 要 对 数据 进行 预 处 理 ， 从 海量 数据 中 提取 需要 的 特征 。 大 数 
据 系统 面临 的 数据 来 源 多 样 ， 其 数据 形式 也 往往 呈现 出 不 同 的 特点 ， 主 
要 可 划分 为 结构 化 数据 、 半 结构 化 数据 和 非 结构 化 数据 3 类 。 结 构 化 数 
据 是 指 能 够 用 数据 或 统一 的 结构 加 以 表示 , 称 之 为 结构 化 数据 , 如 数字 、 
符号 、 二 维 表 结 构 数 据 等 ， 半 结构 化 数据 是 指 介 于 完全 结构 化 数据 (如 
关系 型 数据 库 、 面 向 对 象 数 据 库 中 的 数据 ) 和 完全 无 结构 的 数据 (如 声 
音 、 图 像 文件 等 ) 之 间 的 数据 ， 如 XML. HTML 文档 就 属于 半 结 构 化 
数据 ; 非 结构 化 数据 库 是 指 其 字段 长 度 可 变 , 并且 每 个 字段 的 记录 又 可 
以 由 可 重复 或 不 可 重复 的 子 字段 构成 的 数据 库 ， 用 它 不 仅 可 以 处 理 数 
字 、 符号 等 结构 化 数据 ,而且 更 适合 处 理 图 像 、 声 音 、 影 视 、 全 文 文本 、 
超 媒 体 等 非 结构 化 数据 。 

1) 数据 预 处 理 

结构 化 数据 可 以 较 容易 地 转换 成 特征 值 ; 而 半 结 构 化 或 非 结构 化 的 
数据 则 可 能 需要 采用 自然 语言 处 理 算法 进行 转化 ,为 了 让 不 同 来 源 的 数 
据 具 有 较 高 的 数据 质量 , 还 需要 对 数据 进行 清洗 、 去 噪 、 归 一 化 等 操作 。 
此 外 ， 为 了 支持 大 规模 数据 查询 ， 业 界 常常 在 分 布 式 数 据 库 之 上 构建 
Hive SQL. Spark SQL, Impala 等 查询 引擎 。 

Hive SQL 是 Hive 定义 的 类 SQL 查询 语言 ， 它 提供 了 丰富 的 SQL 
查询 方式 来 分 析 存 储 在 Hadoop 分 布 式 文件 系统 中 的 数据 ， 可 以 将 结构 
化 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 完整 的 SQL 查询 功能 。 一 方 
面 可 以 将 SQL 语句 转换 为 MapReduce 任务 进行 运行 , 通过 自己 的 SQL 
去 查询 分 析 需 要 的 内 容 ; 另 一 方面 MapReduce 开发 人 员 可 以 把 已 写 的 
Mapper 和 Reducer 作为 插件 来 支持 Hive 做 更 复杂 的 数据 分 析 。 尽 管 与 
关系 型 数据 库 的 SQL 略 有 不 同 ， 但 支持 了 绝 大 多 数 语 句 ， 如 DDL X 
据 定 义 语 言 )、DML (数据 操作 语音 ) 以 及 常见 的 聚合 函数 、 连 接 查 询 、 
条 件 查询 。 

Spark SQL 是 一 个 用 来 处 理 结构 化 数据 的 Spark 组 件 ， 它 提供 了 一 
个 叫 作 Data Frame 的 可 编程 抽象 数据 模型 ， 并 且 可 被 视 为 一 个 分 布 式 
的 SQL 查询 引擎 。Data Frame 是 由 “命名 列 ”( 类 似 关系 表 的 字段 定义 ) 
所 组 织 起 来 的 一 个 分 布 式 数据 集合 。 读 者 可 以 把 它 看 成 是 一 个 关系 型 数 
据 库 的 表 。Data Frame 可 以 通过 多 种 来 源 创 建 : 结构 化 数据 文件 、Hive 








的 表 、 外 部 数据 库 或 者 RDDs。Spark SQL 可 以 支持 SQL 语法 来 对 海量 
数据 进行 分 析 查 询 ， 区 别 于 Hive 使 用 MapReduce 运算 框架 作为 SQL 
任务 执行 的 底层 运算 引擎 , Spark SQL 采用 Spark Core 运算 引擎 的 方式 ， 
充分 利用 了 Spark 内 存 计算 及 DAG 模型 的 优势 ， 大 幅 提 升 海量 数据 的 
分 析 查 询 速 度 。 

Impala 是 Cloudera 公司 主导 开发 的 新 型 查询 系统 ， 它 提供 了 SQL 
语义 ， 能 查询 存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB (1024T) 级 大 
数据 。 已 有 的 Hive 系统 虽然 也 提供 了 SQL 语义 ， 但 由 于 Hive 底层 执 
行使 用 的 是 MapReduce 引擎 ， 仍 然 是 一 个 批 处 理 过 程 ， 难 以 满足 查询 
的 交互 性 。 相 比 之 下 ，Impala 的 最 大 特点 也 是 最 大 卖点 就 是 它 的 快速 。 
Impala 不 需要 把 中 间 结 果 写 入 磁盘 ， 省 掉 了 大 量 IO 开销 ; Impala 直接 
通过 相应 的 服务 进程 来 进行 作业 调度 ， 省 掉 了 MapReduce 作业 启动 的 开 
44; Impala 完全 抛弃 了 MapReduce 这 个 不 太 适 合 做 SQL 查询 的 范式 ， 
而 是 像 Dremel (Google 的 一 种 大 数据 查询 分 析 系 统 ) 一 样 借鉴 了 MPP 
并 行 数据 库 的 思想 另起炉灶 ， 因 此 可 做 更 多 的 查询 优化 ， 从 而 省 掉 不 必 
要 的 shuffle ( 洗 牌 , 把 具有 同样 特征 的 数据 汇聚 到 一 个 计算 节点 上 )、sort 
等 开销 ; Impala 通过 使 用 LLVM (底层 虚拟 机 ， 提 供 了 与 编译 器 相关 的 
支持 ) 来 统一 编译 运行 时 代码 ， 避 免 了 为 支持 通用 编译 而 带 来 的 不 必要 
开销 ， 同 时 使 用 了 支持 Data locality 〈 数 据 本 地 化 ) 的 IO 调度 机 制 ， 尽 
可 能 地 将 数据 和 计算 分 配 在 同一 台 机 器 上 进行 ， 减 少 了 网 络 开销 。 

2) 数据 建 模 分 析 

通过 预 处 理 生 成 特征 向 量 集合 之 后 ， 可 以 进行 数据 的 建 模 分 析 工 
作 。 建 模 分 析 是 基于 一 定 的 业务 目标 , 对 数据 集 采用 特定 的 机 器 学 习 算 
法 进行 建 模 的 过 程 。 根 据 数 据 分 析 的 深度 , 可 以 将 数据 建 模 分 析 分 为 以 
下 3 个 层次 。 

O 描述 性 分 析 : 基于 历史 数据 描述 发 生 了 什么 。 例 如 ， 利 用 回归 
技术 从 数据 集中 发 现 简单 的 趋势 ,可视化 技术 用 于 更 有 意义 地 
表示 数据 , 数据 建 模 则 以 更 有 效 的 方式 收集 、 存 储 和 删 减 数据 。 
描述 性 分 析 通 常 应 用 在 商业 智能 和 可 见 性 系统 。 

Q 预测 性 分 析 : 用 于 预测 未 来 的 概率 和 趋势 。 例 如 ， 预 测 性 模型 
使 用 线性 和 对 数 回归 等 统计 技术 发 现 数据 趋势 ， 预 测 未 来 的 输 
出 结果 ， 并 使 用 数据 挖掘 技术 提取 数据 模式 给 出 预见 。 

Q 规则 性 分 析 : 用 于 决策 制定 和 提高 分 析 效 率 。 例 如 ， 仿 真 用 于 
分 析 复 杂 系 统 以 了 解 系统 行为 并 发 现 问 题 ， 而 优化 技术 则 在 给 
定 约束 条 件 下 给 出 最 优 解决 方案 。 

常用 的 机 器 学 习 算 法 包括 有 监督 学 习 、 无 监督 学 习 、 协 同 过 滤 等 ， 
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其 中 有 监督 学 习 又 可 细 分 出 回归 分 析 、 支持 向 量 机 、 决策 树 、 神经 网 络 、 
深层 神经 网 络 (深度 学 习 ) 等 算法 ,尤其 是 深度 学 习 在 近年 来 得 到 了 广 
泛 的 研究 ， 在 声音 、 图 像 识 别 、 时 间 序 列 分 析 等 领域 取得 了 突破 性 的 成 
果 。 此 外 ,研究 人 员 最 近 又 提出 了 迁移 学 习 、 对 抗 学 习 、 强 化 学 习 等 学 
习 模 式 ， 进 一 步 提 升 了 机 器 学 习 解 决 实际 问题 的 效果 。 

(OD 有 监督 学 习 

有 监督 学 习 是 通过 已 有 的 训练 样本 〈 即 已 知 数据 以 及 其 对 应 的 输 
出 ， 又 称 标签 ) 去 训练 得 到 一 个 最 优 模型 ， 这 个 模型 属于 某 个 函数 的 集 
合 ， 最 优 则 表示 在 某 个 评价 准则 下 是 最 佳 的 ， 再 利用 这 个 模型 将 所 有 的 
输入 映射 为 相应 的 输出 标签)， 对 输出 进行 简单 的 判断 ， 从 而 实现 线 
性 回归 (标签 为 连续 的 ) 或 分 类 (标签 为 离散 的 ) 的 目的 。 常 用 的 监督 
学 习 算 法 包括 回归 分 析 、 决 策 树 、 神 经 网 络 等 。 

O 回归 分 析 算法 是 指 在 掌握 大 量 观察 数据 基础 上 ， 利 用 数理 统计 
方法 建立 因 变 量 与 自 变 量 之 间 的 回归 关系 函数 表达 式 (简称 为 回归 方程 
式 )。 这 种 技术 通常 用 于 预测 分 析 、 时 间 序 列 模型 以 及 发 现 变 量 之 间 的 
因果 关系 。 回 归 分 析 能 够 很 好 地 表明 自 变量 和 因 变 量 之 间 的 显著 关系 以 
及 多 个 自 变量 对 一 个 因 变 量 的 影响 强度 。 

© 决策 树 算 法 是 一 种 逼近 离散 函数 值 的 方法 。 它 是 一 种 典型 的 分 
类 方法 , 首先 对 数据 进行 处 理 , 利用 归纳 算法 生成 可 读 的 规则 和 决策 树 ， 
然后 使 用 决策 对 新 数据 进行 分 析 。 本 质 上 决策 树 是 通过 一 系列 规则 对 数 
据 进 行 分 类 的 过 程 。 决 策 树 算法 构造 决策 树 来 发 现 数据 中 蕴涵 的 分 类 规 
则 。 如 何 构造 精度 高 、 规 模 小 的 决策 树 是 决策 树 算 法 的 核心 内 容 。 决 策 
树 构造 可 以 分 两 步 进行 。 

Q 第 一 步 ， 决 策 树 的 生成 : 由 训练 样本 集 生成 决策 树 的 过 程 。 一 

般 情况 下 ， 训 练 样本 数据 集 是 根据 实际 需要 有 历史 的 、 有 一 定 
综合 程度 的 ， 用 于 数据 分 析 处 理 的 数据 集 。 

O “第 二 步 ， 决 策 树 的 前 枝 : 决策 树 的 前 枝 是 对 上 一 阶段 生成 的 决 

策 树 进行 检验 、 校 正和 修 下 的 过 程 ， 主 要 是 用 新 的 样本 数据 集 
〈 称 为 测试 数据 集 ) 中 的 数据 校 验 决策 树 生 成 过 程 中 产生 的 初 
步 规则 ， 将 那些 影响 预 衡 准确 性 的 分 枝 剪除 。 

© 神经 网 络 算法 是 对 人 脑 或 自然 神经 网 络 (Natural Neural Network) 
若干 基本 特性 的 抽象 和 模拟 。 人工 神经 网 络 以 对 大 脑 的 生理 研究 成 果 为 
基础 ， 其 目的 在 于 模拟 大 脑 的 某 些 机 理 与 机 制 ， 实 现 某 个 方面 的 功能 。 
所 以 说 ， 人 工 神经 网 络 是 由 人 工 建 立 的 以 有 向 图 为 拓扑 结构 的 动态 系 
统 , 它 通过 对 连续 或 断 续 的 输入 做 出 状态 响应 而 进行 信息 处 理 。 它 是 根 
据 人 的 认识 过 程 而 开发 出 的 一 种 算法 。 


(2) 无 监督 学 习 

无 监督 学 习 又 称 聚 类 算法 ， 是 通过 对 没有 标签 的 特征 向 量 进行 分 
析 ， 按 数据 的 内 在 相似 性 将 数据 集 划 分 为 多 个 类 别 ， 使 类 别 内 的 数据 相 
似 度 较 大 而 类 别 间 的 数据 相似 度 较 小 的 过 程 。 常 见 的 聚 类 算法 包括 
K-Means、DBSCAN、 密 度 最 大 值 聚 类 等 。 

(D K-Means 算法 是 一 种 基于 样本 间 相 似 性 度量 的 间接 聚 类 方法 ， 
此 算法 以 k 为 参数 ,把 n 个 对 象 分 为 k 个 簇 ， 以 使 秘 内 具有 较 高 的 相似 
E, 而 且 簇 间 的 相似 度 较 低 。 相 似 度 的 计算 根据 一 个 簇 中 对 象 的 平均 值 
(被 看 作 簇 的 重心 ) 来 进行 。 此 算法 首先 随机 选择 k 个 对 象 ， 每 个 对 象 
代表 一 个 聚 类 的 质心 。 对 于 其 余 的 每 一 个 对 象 , 根据 该 对 象 与 各 聚 类 质 
心 之 间 的 距离 ， 把 它 分 配 到 与 之 最 相似 的 聚 类 中 。 然 后 ， 计 算 每 个 聚 类 
的 新 质心 。 重 复 上 述 过 程 ， 直 到 准则 函数 收敛 。K-Means 算法 是 一 种 较 
典型 的 逐 点 修改 迭代 的 动态 聚 类 算法 ， 其 要 点 是 以 误差 平方 和 为 准则 
函数 。 

Q) DBSCAN 算法 是 一 个 比较 有 代表 性 的 基于 密度 的 聚 类 算法 。 与 
划分 和 层次 聚 类 方法 不 同 , 它 将 簇 定义 为 密度 相连 的 点 的 最 大 集合 , 能 
够 把 具有 足够 高 密度 的 区 域 划 分 为 簇 , 并 可 在 噪声 的 空间 数据 库 中 发 现 
任意 形状 的 聚 类 。 它 通过 选 定 一 些 核 心 对 象 ， 然后 求 所 有 密度 可 达 的 点 
进行 聚 类 得 到 不 同 的 和 能。 密度 可 达 是 直接 密度 可 达 的 传递 闭 包 ,， 即 在 一 
定 距 离 内 , 可 以 直接 或 者 间接 到 达 , 并 且 这 种 关系 是 非 对 称 的 .DBSCAN 
目的 是 找到 密度 相连 对 象 的 最 大 集合 ， 该 过 程 可 能 会 合并 一 些 艇 。 

@ 密度 最 大 值 聚 类 算法 是 以 最 大 密度 对 象 作 为 起 始点 ， 通 过 考察 
最 大 密度 对 象 所 处 空间 区 域 的 密度 分 布 情况 来 划分 基本 簇 , 并 合并 基本 
簇 获 得 最 终 的 艇 划分 。 密 度 最 大 值 聚 类 算法 能 够 有 效 识别 驴 的 数量 ,， 有 
效 发 现任 意 形状 的 密度 能， 并 且 对 于 偏 斜 数据 集 的 处 理 具 有 很 好 的 效 
果 。 在 选择 了 合适 的 对 象 邻近 度 定义 后 ， 密 度 最 大 值 聚 类 算法 对 高 维 数 
据 集 、 变 密度 数据 集 以 及 文本 数据 集 也 能 够 进行 很 好 的 处 理 。 

(3) 协同 过 滤 

协同 过 滤 通 过 对 用 户 历史 行为 数据 的 挖掘 发 现 用 户 的 偏好 , 基于 不 同 
的 偏好 对 用 户 进行 群 组 划分 并 推荐 品味 相似 的 商品 。 协同 过 滤 推 荐 算法 分 
为 两 类 ， 分 别 是 基于 用 户 的 协同 过 滤 算 法 和 基于 物品 的 协同 过 滤 算 法 。 

基于 用 户 的 协同 过 滤 算 法 是 通过 用 户 的 历史 行为 数据 发 现 用 户 对 
商品 或 内 容 的 喜欢 〈 如 商品 购买 、 收 藏 、 内 容 评论 或 分 享 )， 并 对 这 些 
喜好 进行 度量 和 打分 。 根 据 不 同 用 户 对 相同 商品 或 内 容 的 态度 和 偏好 程 
度 计算 用 户 之 间 的 关系 。 算 法 核心 思想 是 在 一 个 在 线 推荐 系统 中 ， 当 用 
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户 A 需要 个 性 化 推荐 时 ， 可 以 先 找到 和 他 有 相似 兴趣 的 其 他 用 户 ， 然 
后 把 那些 用 户 喜 欢 的 而 用 户 A 没有 听 说 过 的 物品 推荐 给 A。 
基于 物品 的 协同 过 滤 算 法 通过 计算 不 同 用 户 对 不 同 物品 的 评分 获 
得 物品 间 的 关系 , 基于 物品 间 的 关系 对 用 户 进行 相似 物品 的 推荐 。 算法 
核心 思想 是 找到 和 用 户 A 喜欢 的 物品 相似 的 物品 ， 然 后 把 相似 的 物品 
推荐 给 用 户 A。 例 如 ， 用 户 A 很 喜欢 《黑客 帝国 》， 而 《 盗 梦 空 间 》 和 
《黑客 帝国 》 相 似 度 很 高 , 推荐 系统 就 可 以 给 用 户 A 推荐 《 盗 梦 空间 》， 
实际 上 用 户 A 也 很 喜欢 《 盗 梦 空间 》。 
3) LR 
在 大 数据 建 模 分 析 过 程 中 , 业界 经 常 使 用 的 工具 包括 Python, R 等 
编程 语言 和 Spark MLlib、Caffee 等 机 器 学 习 算 法 库 。 
Q Python 编程 语言 是 一 种 面向 对 象 的 解释 型 计算 机 程序 设计 语 
言 ， 由 荷兰 人 Guido van Rossum 于 1989 年 发 明 ， 具 有 丰富 和 
强大 的 库 。 它 常 被 昵称 为 胶水 语言 ， 能 够 把 用 其 他 语言 制作 的 
各 种 模块 (尤其 是 C/C++) 很 轻松 地 联结 在 一 起 。 常 见 的 一 种 
应 用 情形 是 , 使 用 Python 快速 生成 程序 的 原型 (有 时 甚至 是 程 
序 的 最 终 界 面 )， 然 后 对 其 中 有 特别 要 求 的 部 分 ， 用 更 合适 的 
语言 改写 ， 如 3D 游戏 中 的 图 形 泻 染 模块 ， 性 能 要 求 特别 高 ， 
就 可 以 用 C/C++ 重 写 ， 而 后 封装 为 Python 可 以 调用 的 扩展 类 
BE. 需要 注意 的 是 , 在 使 用 扩展 类 库 时 可 能 需要 考虑 平台 问题 ， 
某 些 可 能 不 提供 跨 平台 的 实现 。 
口 R 编程 语言 是 统计 领域 广泛 使 用 的 ， 诞 生 于 1980 年 左右 的 S 
语言 的 一 个 分 支 。R 语言 是 S 语言 的 一 种 实现 。S 语言 是 由 
AT&T 贝尔 实验 室 开 发 的 一 种 用 来 进行 数据 探索 、 统 计 分 析 、 
作 图 的 解释 型 语言 。 最 初 S 语言 的 实现 版 本 主要 是 S-PLUS 。 
S-PLUS 是 一 个 商业 软件 ， 它 基于 S 语言 ， 并 由 MathSoft 公司 
的 统计 科学 部 进一步 完善 。R 是 一 套 完 整 的 数据 处 理 、 计 算 和 
制图 软件 系统 。 其 功能 包括 : 数据 存储 和 处 理 系 统 ， 数 组 运算 
工具 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ); 完整 连贯 的 统 
计 分 析 工 具 ; 优秀 的 统计 制图 功能 ;简便 而 强大 的 编程 语言 ， 
可 操纵 数据 的 输入 和 输出 ， 可 实现 分 支 、 循 环 ， 用 户 可 自 定义 
功能 。 
Q Spark MLlib 是 spark 的 可 以 扩展 的 机 器 学 习 库 ，MLlib 构建 在 
apache spark 之 上 ， 一 个 专门 针对 大 量 数据 处 理 的 通用 的 、 快 
速 的 引擎 ， 由 通用 的 学 习 算法 和 工具 类 组 成 。 


O Caffee (Convolutional Architecture for Fast Feature Embedding, 
卷 积 神 经 网 络 框架 ) 是 一 个 可 读 性 高 、 快 速 的 深度 学 习 框 架 ， 
其 作者 是 博士 毕业 于 UC Berkeley 的 贾 扬 清 , 目前 在 Google T 
作 。Caffee 是 纯粹 的 C-—CUDA 架构 ， 支 持 命令 行 、Python 
和 MATLAB (是 美国 MathWorks 公司 出 品 的 商业 数学 软件 ) 
接口 ; 可 以 在 CPU 和 GPU (图形 处 理 器 〉 直 接 无 颖 切换。 


4. 结果 可 视 化 及 输出 API 


(1) 数据 可 视 化 
数据 可 视 化 就 是 利用 计算 机 图 形 学 和 图 像 处 理 技 术 ， 将 数据 以 图 
表 、 地 图 、 标 签 云 、 动 画 或 任何 使 内 容 更 容易 理解 的 图 形 方式 呈现 给 用 
户 ， 并 进行 交互 处 理 的 理论 、 方 法 和 技术 。 人 们 对 图 形 的 理解 能 力 非常 
独到 , 往往 能 够 从 图 形 当 中 发 现 数据 的 一 些 规律 ， 而 这 些 规律 用 常规 的 
方法 是 很 难 发 现 。 数 据 可 视 化 的 意义 在 于 根据 数据 的 特性 ， 如 时 间 信 息 
和 空间 信息 等 ， 找 到 合适 的 可 视 化 方式 ， 如 图 表 、 图 和 地 图 等 ， 将 数据 
直观 地 展现 出 来 , 来 帮助 人 们 理解 数据 ,同时 找 出 包含 在 海量 数据 中 的 
规律 或 者 信息 。 显然, 数据 在 表格 中 比 在 图 中 更 难 让 人 洞悉 其 中 的 关键 
信息 。 如 果 由 于 某 种 原因 ， 只 将 数据 简单 地 放 在 表格 中 , 会 让 人 很 难 领 
悟 数据 中 的 关键 信息 。 在 配色 方案 、 标 签 和 信息 顺序 方面 的 选择 和 组 织 
也 是 很 有 讲究 的 ， 这 会 影响 到 读者 如 何 处 理 这 些 信息 ， 以 及 理解 到 的 图 
中 所 要 传达 的 关键 信息 是 什么 。 因 此 , 针对 具体 希望 展示 给 读者 的 每 一 
个 主题 和 内 容 , 应 该 充分 利用 通过 使 读者 直观 接受 的 视觉 方式 来 仔细 组 
织 信息 。 数 据 可 视 化 可 以 帮助 我 们 探索 数据 内 在 的 价值 ， 还 能 帮助 我 们 
直观 有 效 地 展示 分 析 结 果 ， 更 容易 地 让 人 接收 我 们 所 希望 传达 的 关键 
信息 。 
在 大 数据 时 代 ， 数 据 量变 得 非常 大 ， 而 且 非 常 烦 琐 ， 要 想 发 现 数据 
中 包含 的 信息 或 者 知识 , 可视化 是 最 有 效 的 途径 之 一 。 根 据 使 用 场景 进 
行 分 类 可 分 为 离线 可 视 化 工具 、 在 线 数据 可 视 化 工具 、 互 动 图 形 用 户 界 
i (GUD 控制 。 当 前 主流 的 数据 可 视 化 工具 包括 Tableau. Infogram. 
ChartBlocks、Plotly、RAW、D3.js、Google Charts、FusionCharts、Chart.js、 
Sigma JS, Polymaps. Processingjs 等 。 这 些 工具 通过 调用 数据 存储 系统 
的 API 获取 结构 化 或 半 结 构 化 的 数据 ， 并 根据 展示 的 需要 对 数据 进行 分 
类 、 统 计 、 整 合 ， 然 后 以 各 种 可 选 的 图 表 、 图 形 的 方式 直观 地 展示 数据 。 
Q Tableau 是 一 款 企 业 级 的 大 数据 可 视 化 工具 。Tableau 可 以 让 用 
户 轻松 创建 图 形 、 表 格 和 地 图 。 它 不 仅 提供 了 PC 桌面 版 ， 还 
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提供 了 服务 器 解决 方案 ， 可 以 在 线 生成 可 视 化 报告 。 服 务 器 解 
决 方案 可 以 提供 了 云 托管 服务 。 

Infogram 的 最 大 优势 在 于 ， 让 可 视 化 信息 图 表 与 实时 大 数据 相 
链接 。 只 需 3 个 简单 步 又， 便 可 在 众多 图 表 、 地 图 ， 甚 至 是 视 
频 可 视 化 模板 中 进行 选择 。Infogram 支持 团队 账号 。 
ChartBlocks 是 一 个 易于 使 用 的 在 线 工具 , 它 无 须 编码 , 便 能 从 
电子 表格 、 数 据 库 中 构建 可 视 化 图 表 。 整 个 过 程 可 以 在 图 表 向 
导 的 指导 下 完成 。 图 表 将 在 HTMLS 的 框架 下 使 用 强大 的 
JavaScript 库 D3.js 创建 图 表 ， 所 建 图 表 是 响应 式 的 ， 并 且 可 以 
和 任何 屏幕 尺寸 及 设备 兼容 。 

Plotly 可 帮助 读者 在 短 短 几 分 钟 内 ， 从 简单 的 电子 表格 中 开始 
创建 漂亮 的 图 表 。Plotly 已 经 为 谷歌 、 美 国 空军 和 纽约 大 学 等 
机 构 所 使 用 。Plotly 是 一 个 非常 人 性 化 的 网 络 工具 ， 让 读者 在 
几 分 钟 内 启动 。 如果 读者 的 团队 希望 为 JavaScript 和 Python 等 
编程 语言 提供 一 个 API 接口 的 话 ，Plotly 是 一 款 非常 人 性 化 的 
工具 。 

RAW 弥补 了 很 多 工具 在 电子 表格 和 矢量 图 形 (SVG) 之 间 的 
缺失 环节 。 读 者 的 大 数据 可 以 来 自 Microsoft Excel H, KX 
档 或 是 一 个 简单 的 逗号 分 隔 的 列表 。 它 最 厉害 的 功能 是 可 以 很 
容易 地 导出 可 视 化 结果 ， 因 为 它 和 Adobe Illustrator. Sketch 和 
Inkscape 是 相 容 的 。 

D3 js 是 最 好 的 数据 可 视 化 工具 库 。D3.js 运行 在 JavaScript E, 
并 使 用 HTML. CSS 和 SVG. D3js 是 开源 工具 ， 使 用 数据 驱 
动 的 方式 创建 漂亮 的 网 页 ， 还 可 实现 实时 交互 。 这 个 库 非 常 强 
大 和 前 沿 ， 所 以 它 带 有 没有 预 置 图 表 也 不 支持 IE9。 

Google Charts 以 HTMLS 和 SVG 为 基础 ,充分 考虑 了 跨 浏 览 器 
的 兼容 性 ， 并 通过 VML 支持 旧版 本 的 TE 浏览 器 。 所 有 创建 的 
图 表 是 交互 式 的 ， 有 的 还 可 缩放 。Google Charts 是 非常 人 性 化 
的 ， 它 们 的 网 站 拥有 一 个 非常 好 的 、 全 面 的 模板 库 ， 读 者 可 以 
从 中 找到 所 需 模板 。 

FusionCharts 是 最 全 面 的 JavaScript 图 表 库 ， 包 括 90 个 图 表 和 
900 种 地 图 。 如 果 读 者 不 是 特别 喜欢 JavaScript, FusionCharts 
可 以 轻松 集成 像 jQuery 库 、Angularjs 和 React 框架 以 及 
ASP.NET 和 PHP 的 语言 。FusionCharts 支持 JSON 和 XML 数 
据 ， 并 提供 许多 格式 图 表 ， 如 PNG. JPEG. SVG 和 PDF. 


O chartjs 是 一 个 面向 项 目 图 表 的 很 好 的 工具 。 开 源 ， 只 有 11KB 
大 小 , 这 使 得 它 快速 且 易于 使 用 , 它 支持 多 种 图 表 类 型 : 饼 图 、 
线性 图 和 雷达 图 等 。 

Q Sigma JS 是 交互 式 可 视 化 工具 库 。 由 于 使 用 了 WebGL 技术 ， 
可 以 使 用 鼠标 和 触摸 的 方式 来 更 新 和 变换 图 表 。Sigma JS 同时 
支持 ISON 和 GEXF 两 种 数据 格式 ， 这 为 它 提供 了 大 量 的 可 用 
互动 式 插件 。Sigma JS 专注 于 网 页 格式 的 网 络 图 可 视 化 。 因 此 
它 在 大 数据 网 络 可 视 化 中 非常 有 用 。 

O Polymaps 是 一 款 地 图 可 视 化 的 JavaScript 工具 库 。Polymaps 使 
用 SVG 实现 从 国家 到 街道 一 级 地 理 数据 的 可 视 化 ， 可 以 使 用 
CSS 格式 来 修改 其 样式 .Polymaps 使 用 GeoJSON 来 解释 地 理 数 
据 ， 它 是 创建 heatmap 热点 图 的 最 好 的 工具 之 一 ， 所 创建 的 所 
有 地 图 都 可 以 变 成 动态 图 。 

O Processing.js 是 一 个 基于 可 视 化 编程 语言 的 JavaScript 库 。 作为 
一 种 面向 Web 的 JavaScript Æ, Processing.js 能 够 有 效 进行 网 页 
格式 图 表 处 理 ， 这 使 得 它 成 为 了 一 种 非常 好 交换 式 可 视 化 工具 。 
Processing.js 需要 一 个 兼容 HTMLS 的 浏览 器 来 实现 这 一 功能 。 

(2) 输出 API 

为 了 能 够 方便 用 户 进行 定制 和 多 种 数据 的 集成 , 数据 可 视 化 工具 还 
提供 了 输出 API， 供 用 户 对 数据 分 析 结果 进行 个 性 化 的 展示 ， 用 户 通 过 
添加 数据 源 ， 对 数据 源 进行 简单 处 理 ， 然 后 通过 可 视 化 工具 提供 的 可 视 
化 效果 设置 , 就 能 直接 得 到 各 种 自 定义 效果 的 可 视 化 结果 展示 。 根据 功 
能 不 同 , 输出 API 包括 数据 读 取 API. 画面 泻 染 API. 模板 加 载 API 等 ; 
根据 数据 刷新 时 间 的 不 同 , 输出 API 可 分 触发 刷新 式 API、 实 时 刷新 式 
API; 根据 用 户 进行 分 类 ， 可 以 分 为 开发 人 员 API、 数 据 分 析 人 员 API。 
而 大 数据 环境 下 的 可 视 化 则 是 可 视 化 大 数据 分 析 结 果 , 针对 目前 较为 成 
熟 Hadoop, Spark 大 数据 平台 生态 圈 提 供 的 数据 存储 组 件 和 计算 引擎 ， 
可 总 结 得 到 如 表 2-1 所 示 的 可 视 化 API。 

表 2-1 可 视 化 API 接 口 


接口 描述 使 用 人 员 
在 应 用 中 通过 ODBC/JDBC 
驱动 连接 到 后 台数 据 库 








应 用 开发 人 员 





提供 REST 方式 访问 数据 
(HDFS) 
提供 REST 方式 访问 数据 
(HBase) 


应 用 开发 人 员 





应 用 开发 人 员 
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接 口 
核心 组 件 API 接口 


接口 描述 
提供 各 个 组 件 的 编程 接口 


续 表 
使 用 人 员 
应 用 开发 人 员 、 
数据 分 析 人 员 





R 语言 


主要 用 来 进行 数据 统计 、 计 
算 会 绘图 的 编程 语言 ， 内 建 
多 重 统计 学 及 数学 分 析 功 
能 ， 专 业 性 很 强 


数据 分 析 、 开 
发 人 员 





D3js 


Data.js 


Recline.js 


HignCharts.js 


iCharts 





画面 泻 染 


数据 获取 、 画 面 
泻 染 、 模 板 加 载 


基于 JavaScript 的 数据 在 线 
可 视 化 库 ， 人 允许 绑 定 任意 数 
据 到 DOM， 然 后 将 数据 驱 
动 转换 应 用 到 Document 中 
JavaScript 数据 表示 框架 ， 
提供 统一 的 接口 和 数据 域 ， 
是 一 款 简单 易 用 的 数据 可 
视 化 工具 

一 个 简单 但 功能 强大 的 库 ， 
利用 JavaScript 和 HTML 轻 
松 创 建 基 于 数据 的 应 用 

纯 JavaScript 编写 的 一 个 图 
表 库 ， 能 够 很 简单 便捷 的 在 
Web 网 站 或 是 Web 应 用 程 
序 添 加 有 交互 性 的 图 表 ， 支 
持 的 图 表 类 型 有 曲线 图 、 区 
域 图 、 柱 状 图 、 饼 状 图 、 散 
状 点 图 和 综合 图 表 


在 线 的 数据 可 视 化 工具 


Web 应 用 开发 
人 员 


Web 应 用 开发 
人 员 


Web 应 用 开发 
人 员 


Web 前 端 开发 
人 员 


数据 分 析 人 员 





Ember Charts 


Google Charts 


开源 的 数据 可 视 化 工具 ， 基 
于 流行 的 D3.js, 支持 多 种 图 
表 类 型 

基于 Emberjs 和 d3.js 框架 
的 图 表 库 ， 包 括 时 间 序 列 、 
条 形 图 、 饼 图 、 线 型 图 、 散 
点 图 等 多 种 类 型 ， 且 易于 扩 
展 和 修改 

提供 一 个 在 线 的 图 片 生成 器 ， 
为 统计 数据 自动 生成 图 片 


数据 分 析 人 员 


数据 分 析 人 员 


数据 分 析 人 员 





Crossfilter 





互动 图 形 用 户 界面 的 小 程序 ， 
当 调 整数 据 的 输入 范围 后 ， 
关联 图 表 的 数据 也 会 随 着 
该 表 





数据 分 析 人 员 








续 表 
接 口 使 用 人 员 
Visual.ly 数据 分 析 人 员 
阿里 云 出 品 的 拖 忠 式 可 视 
化 工具 ， 拥 有 丰富 的 模板 和 
DataV 图 表 组 件 ， 专 精 于 业务 数据 | 数据 分 析 人 员 
与 地 理 信息 融合 的 大 数据 
式 、 实 时 刷新 式 可 视 化 
2.2.3 ”系统 硬件 


大 数据 软件 应 用 平台 时 常 需要 接 入 各 行业 的 重要 数据 , 可 以 通过 系 
统 对 接 、 网 络 采 集 两 种 方式 来 接 入 数据 。 大 数据 系统 的 硬件 基础 主要 包 
括 服务 器 环境 、 存 储 环境 、 备 份 环境 、 网 络 环境 。 


1. 服务 器 环境 


Ch 数据 采集 服务 器 : 是 用 来 解决 数据 抽取 和 数据 接收 问题 的 服务 
器 ， 可 部 署 在 分 步 式 大 数据 系统 中 ， 能 够 集中 化 处 理 需 要 分 析 
的 数据 。 

口 数据 清洗 转换 服务 器 : 用 于 解决 数据 的 清洗 转换 问题 。 

D “分 步 式 存储 服务 器 : 针对 大 规模 数据 存储 时 非常 适用 ， 会 对 数 
据 实施 分 片 化 存储 ， 保 证 数据 的 可 用 性 和 可 靠 性 。 

O 并行 分 析 服 务 器 : 以 并 行 的 方式 分 析 数 据 , 分 析 并 挖掘 海量 数据 。 
口 数据 管理 服务 器 : 用 于 部 署 大 数据 管理 系统 和 大 数据 的 数据 
库 ， 并 可 以 解决 高 并 发 在 线 数 据 服务 问题 。 

口 数据 运营 服务 器 : 发 布 分 析 后 的 数据 到 下 游 系 统 ， 实 现 运 维 大 
数据 系统 对 下 游 系统 的 价值 输出 。 


2. 存储 环境 


数据 存储 主要 包含 结构 化 数据 存储 、 半 结构 化 数据 存储 、 非 结构 化 
数据 存储 这 三 大 类 数据 的 存储 ,初期 可 选择 适合 的 TB 级 数据 存储 磁盘 
在 持续 运营 后 ， 可 适当 升级 到 PB 级 别 的 磁盘 来 存储 更 多 数据 。 


3. 备份 环境 


选择 合适 备份 方式 及 适当 的 备份 存储 空间 。 比 较 推荐 的 做 法 是 使 用 
第 三 方 数据 服务 机 构 提供 的 异地 备份 服务 。 





—— 62 


大 数据 系统 运 维 —e 


4. 网 络 环境 


如 果 相 关 数 据 信息 是 经 由 互联 网 采集 , 则 必须 选择 满足 互联 网 基本 
采集 要 求 的 ， 并 适合 该 大 数据 系统 的 Internet 网 络 类 型 。 


2.24 系统 数据 


1. 原始 系统 数据 


原始 数据 是 指 从 真实 对 象 获取 的 原始 的 数据 ,不 准确 的 数据 将 影响 
后 续 数据 处 理 并 导致 得 到 无 效 结果 。 原始 数据 的 收集 方法 的 选择 不 仅 取 
决 于 数据 源 的 物理 性 质 ， 还 要 考虑 数据 分 析 的 目标 。 目 前 ，Web 网 络 、 
日 志文 件 和 传感器 是 3 种 最 常用 的 数据 收集 方式 。 收 集 原 始 数据 后 ， 必 
须 将 其 传输 到 数据 存储 设备 ， 如 在 数据 中 心 等 待 进一步 处 理 。 传 输 数据 
过 程 可 分 为 传输 IP 骨干 和 传输 数据 中 心 两 个 方式 。 


2. 预 处 理 后 数据 


数据 多 样 性 、 数 据 元 余 、 数 据 干 扰 诱 因 和 相干 因素 等 影响 ,都 会 对 
数据 的 分 析 造 成 挑战 。 从 需求 场景 出 发 ， 某 些 数据 分 析 工具 对 数据 的 质 
量 有 着 严格 的 要 求 。 因 此 需要 使 用 数据 预 处 理 来 提高 数据 质量 ,这 3 种 
主要 的 数据 预 处 理 技 术 分 别 是 数据 集成 、 数 据 清洗 和 删除 元 余数 据 。 


3. 存储 数据 


大 型 数据 系统 中 的 存储 数据 系统 以 相应 的 格式 保存 所 需 的 信息 , 直 
到 进行 分 析 和 创建 价值 。 为 实现 这 一 目标 , 存储 数据 系统 应 具有 以 下 两 
个 特点 : 存储 设施 应 能 够 永久 并 可 靠 地 保存 信息 ; 存储 系统 应 提供 可 供 
外 部 访问 的 API 接口 ， 方 便 用 户 对 数据 进行 查询 和 分 析 。 从 功能 上 讲 ， 
存储 数据 系统 可 分 为 基础 设施 硬件 、 数 据 管 理 软 件 。 


4. 备份 数据 


根据 大 数据 系统 的 主机 与 备份 存储 之 间 同 步 程度 的 不 同 需求 , 备份 
可 分 为 3 种 情况 ， 分 别 为 冷 态 备 份 、 暖 态 备份 和 热 态 备份 。 


2.2.5 IT 供应 商 


在 大 数据 行业 中 ， 有 许多 垂直 合并 的 大 型 供应 商 ， 如 IBM, SAP. 
Oracle, Dell, Hewlett-Packard 和 Amazon 等 。 他 们 所 提供 的 服务 可 以 
涉及 多 个 类 别 ， 虽 然 如 此 ， 有 些 公 司 在 大 数据 行业 的 某 个 特定 方面 更 加 
专业 化 。 


1. 数据 提供 商 


有 些 公司 出 售 纯净 的 、 没 有 杂质 的 数据 ,因此 可 以 更 方便 地 执行 大 
量 数据 分 析 。 商 业 大 数据 项 目 通常 需要 内 部 、 外 部 和 第 三 方 数据 。 对 于 
外 部 获取 的 数据 ， 经 常 使 用 特定 数据 源 厂商 ， 例 如 ， 提 供用 户 信息 统计 
的 信用 卡 代理 公司 Experian、 出 售 与 法 律 和 商业 纠纷 有 关 数 据 的 公司 
LexisNexis 等 。 


2. 架构 和 平台 提供 商 


此 类 服务 大 多 数 都 是 基于 最 流行 的 开源 和 大 数据 技术 , 如 Hadoop、 
park 和 NoSQL 数据 库 、MongoDB、Assandra 是 可 以 自行 提供 安装 和 服 
务 的 提供 商 。 该 领域 的 公司 通常 提供 定制 的 Hadoop 安装 服务 ， 以 及 特 
定 的 分 析 需 求 或 存储 解决 方案 。 

3. 大 数据 咨询 公司 

虽然 许多 基础 结构 提供 商 也 提供 咨询 服务 , 可 以 帮助 创建 和 管理 数 
据 分 析 ， 并 充分 利用 数据 ,但 是 专业 的 咨询 公司 往往 可 以 提供 更 好 的 服 
务 。 这 些 咨询 公司 和 上 一 类 公司 之 间 的 一 个 重要 区 别 是 , 专业 咨询 公司 
不 会 倾向 于 使 用 自己 的 架构 产品 ,咨询 公司 会 从 不 同 的 开源 架构 中 选择 
适当 的 模块 ， 并 为 客户 进行 合适 的 定制 。 

4. 分 析 运 营 商 


可 大 致 分 为 两 类 运营 商 : 通用 分 析 运 营 商 和 专业 分 析 运 营 商 。 运营 
商 编写 代码 ,进行 数据 处 理 和 分 析 。 无论 数 据 是 通过 内 部 数据 采集 还 是 
相关 企业 购买 而 来 的 ， 都 要 通过 分 析 技 术 从 数据 中 提取 出 有 用 的 信息 。 
除了 通用 分 析 运 营 商 ， 还 有 一 些 公司 服务 于 专业 的 市 场 ， 如 Palantir A 
司 专注 于 反恐 和 欺诈 分 析 。 


5. 可 视 化 供应 商 


可 视 化 是 一 个 大 型 数据 分 析 过 程 中 , 将 分 析出 的 信息 转化 为 最 后 的 
可 视界 面 ， 这 是 非常 重要 ， 却 又 经 常 被 忽视 的 一 个 步骤 。 有 许多 专业 的 
可 视 化 运营 商 ， 诸 如 Tableau, Datawatch, SAS, Qlik 等 。 


23 ”系统 管理 内 容 


系统 管理 是 IT 服务 的 核心 工作 之 一 ， 负 责 IT 部 门 内 部 的 系统 日 常 运 
营 与 操作 。 系 统管 理 主要 有 8 项 内 容 : 事件 管理 (Incident Management), 
i] FEE (Problem Management), MAE (Configuration Management), 
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变更 管理 (Change Management), RAEE (Release Management), A 
iR ER (Knowledge Management)、 日 志 管理 (Log Management)、 备 
份 管理 (Backup Management)。 值 得 一 提 的 是 ， 以 ITIL 理念 为 导向 的 
IT 服务 正在 为 企业 创造 巨大 的 价值 。 


2.3.1 事件 管理 


1. 事件 


事件 是 指 可 被 控件 识别 的 操作 , 事件 分 为 系统 事件 和 用 户 事件 ， 系 
统 事件 来 源 于 系统 本 身 ， 而 用 户 事件 来 源 于 用 户 操作 。 


2. 事件 管理 


在 IT 服务 管理 中 事件 管理 是 重要 流程 之 一 ， 事 件 解决 的 时 效 性 决 
定 系统 管理 服务 的 质量 。 事 件 管理 指 及 时 处 理 中 断 的 IT 服务 并 快速 恢 
复 IT 服务 能 力 。 事 件 的 来 源 来 自 IT 用 户 报告 、 监 控 系 统 自动 转发 等 。 


3. 事件 管理 的 流程 目标 


事件 管理 流程 的 目标 是 为 了 降低 IT 故障 对 企业 业务 的 影响 ， 达 到 
提升 业务 稳定 性 的 作用 。 具 体操 作 时 ， 按 照 事件 的 优先 级 ， 多 渠道 及 时 
响应 服务 请 求 ， 快 速 有 序 地 解决 ， 从 而 减少 IT 服务 中 断 造成 的 影响 。 
根据 事件 的 优先 级 、 影 响 度 进行 综合 分 类 排序 ， 如 果 判 断 事件 优先 级 是 
紧急 , 则 按 紧急 事件 管理 的 流程 进行 处 理 , 为 客户 提供 及 时 的 事件 处 理 
状态 信息 。 必 要 时 对 监控 事件 处 理 过 程 进行 管理 和 技术 升级 ， 确 保 IT 
事件 处 理 过 程 中 的 关键 信息 能 正确 记录 ， 为 后 续 事 件 处 理 提供 知识 支 
持 , 为 流程 持续 优化 提供 准确 的 数据 信息 ,同时 按 规范 记录 事件 信息 及 
解决 过 程 信息 。 事 件 管理 的 其 他 功能 还 包括 查看 服务 台 及 后 台 技 术 资 源 
利用 情况 ， 受 理 IT 用 户 的 投诉 与 建议 ， 对 用 户 投诉 与 建议 进行 处 理 与 
反馈 ， 从 而 提高 用 户 满意 度 。 


2.3.2 ”问题 管理 


1. 问题 


问题 是 指 多 次 发 生 的 事件 、 重 大 事件 、 主 动 问题 管理 发 现 的 问题 、 
超过 SLA 中 规定 时 限 的 事件 、 可 用 性 事件 、 未 查 到 根本 原因 的 事件 。 


2. 问题 管理 
问题 管理 通过 标准 化 的 方法 管理 已 发 生 的 IT 技术 问题 ， 其 目的 是 


为 了 帮助 企业 提高 工作 效率 。 问 题 管理 流程 的 主要 阶段 为 : 问题 的 识别 
和 提交 、 调 查 和 诊断 、 实 施 解决 以 及 回顾 关闭 。 问 题 管理 的 持续 进行 可 
帮助 企业 优化 运 维 管理 ， 从 而 及 早 发 现 问 题 并 解决 问题 。 


3. 问题 管理 的 流程 目标 


作为 一 个 旨 在 提高 效率 的 管理 流程 , 问题 管理 流程 的 目的 是 要 找到 
故障 的 根本 原因 ， 设 计 并 实施 解决 方案 ， 提 高 系统 稳定 性 。 问 题 管理 流 
程 包括 : 建立 发 现 及 审查 机 制 ， 查 明 根 本 原因 ， 规 范 处 理 流程 ， 制 订 解 
决 方案 。 尽 可 能 降低 问题 再 发 生 的 几率 , 最 好 从 根本 上 杜绝 问题 的 再 次 
发 生 ; 负责 知识 收集 和 共享 ， 提 高 全 体 运 营 维护 人 员 的 技术 水 平 ; 通过 
对 问题 的 趋势 分 析 进 行 主动 性 问题 管理 ， 提 高 服务 的 可 用 性 和 可 靠 性 ; 
提高 IT 服务 的 稳定 性 ， 主 动 找 出 并 消除 潜在 原因 ， 把 问题 发 生 的 可 能 
性 降 到 最 小 ， 避 免 相 同性 质 的 问题 再 次 发 生 ， 提 高 资源 利用 率 ， 保 证 服 
务 级 别 的 实现 。 


2.3.3 配置 管理 


1. 配置 


配置 是 指 系统 的 配置 信息 , 包括 物理 设备 的 硬件 信息 、 逻 辑 信息 等 。 
有 具体 的 配置 项 的 选择 根据 不 同系 统 和 不 同业 务 需求 而 定 。 


2. 配置 管理 


配置 管理 是 对 IT 资源 进行 管理 的 重要 步骤 之 一 ， 也 是 大 数据 运 维 
的 重要 依据 。 配 置 管理 是 IT 管理 的 关键 ， 也 是 事件 管理 、 问 题 管理 等 
流程 审查 原因 所 在 ， 有 具体 数据 来 自 配 置 管理 数据 库 。 配 置 管理 数据 库 中 
的 资源 是 为 大 数据 运 维 配 备 全 面 信息 的 基础 , 也 是 为 了 更 好 地 提高 企业 
IT 服务 的 质量 途径 。 


3. 配置 管理 的 流程 目标 


配置 管理 录入 并 管理 IT 基础 设施 的 配置 信息 , 是 IT 服务 准确 的 信 
息 来 源 。 

由 配置 流程 经 理 组 织 制定 或 修订 配置 管理 相关 定义 及 策略 , 包括 配 
置 管理 的 范围 、 结 构 规 划 、 审核 策略 等 , 并 接受 部 门 负责 人 的 审阅 确认 。 
部 门 负 责 人 对 配置 流程 经 理 提 出 的 配置 管理 策略 新 增 / 修 订 内 容 进 行 审 
批 ， 审 批 通过 则 进入 下 一 步骤 ， 和 否则 退回 上 一 步骤 重新 修订 。 

配置 流程 需要 定期 回顾 整理 配置 管理 流程 ， 并且 完善 配置 信息 ， 编 
写 配置 管理 报告 。 
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234 ”变更 管理 


1. 变更 
变更 是 指 对 系统 进行 修改 ， 发 生变 动 ， 包 括 更 改 错误 代码 等 行为 。 
2. 变更 管理 


变更 管理 的 目的 是 有 效 地 审批 和 控制 IT 设施 变更 ， 及 时 降低 业务 
故障 率 ， 保 证 业务 尽快 、 正 常 、 有 序 地 运行 ， 从 而 减少 故障 对 用 户 的 影 
响 ， 以 提升 服务 质量 。 


3. 变更 管理 的 流程 目标 


变更 管理 在 于 规范 和 控制 变更 流程 : 在 保证 管控 的 前 提 下 ， 发 起 、 
评估 、 批 准 、 实 施 、 回 顾 变 更 ， 运 用 正确 的 方法 处 理 变更 ， 在 可 控 范围 
内 压缩 变更 产生 的 负面 效应 , 且 保证 在 规定 范围 之 内 实施 变更 管理 流程 。 
确保 完整 记录 所 有 变更 及 对 应 措施 ， 确 保 跟踪 变更 直到 实施 完成 ， 
通过 对 变更 进行 风险 评估 ， 保 证 变更 能 够 更 好 地 满足 业务 的 需求 。 
口 变更 管理 可 以 减少 风险 : 通过 控制 和 管理 变更 从 而 减少 由 于 新 
导入 变更 对 于 生产 环境 所 带 来 的 风险 和 负面 影响 。 
口 变更 管理 可 以 降低 成 本 : 高 效 的 变更 管理 会 及 时 处 理 并 解决 生 
产 环境 里 发 生 的 问题 ， 提 升 运 维 的 质量 ， 从 而 降低 维护 成 本 。 
口 ”变更 管理 可 以 增强 服务 灵活 性 : 结构 化 的 变更 实施 帮助 IT 组 
织 更 快 和 更 有 效 地 适应 业务 需求 的 改变 。 变 更 管理 亦 能 够 帮助 
提高 服务 质量 ， 预 先 评估 也 能 为 计划 外 的 服务 中 断 提供 事前 准 
备 ， 以 此 提升 服务 效率 。 


2.3.5 发 布 管理 


1. 发 布 


发 布 是 指 软件 开发 后 ， 进 行 软件 发 布 的 试验 、 部 署 和 验证 阶段 ， 主 
要 包括 系统 新 版 本 发 布 、 新 功能 上 线 等 。 


2. 发 布 管理 

发 布 管理 是 变更 流程 的 其 中 一 种 , 主要 为 了 在 尽 可 能 不 影响 系统 正 
常服 务 运 行 的 情况 下 对 IT 环境 实施 可 控 的 变更 。 发 布 管理 的 主要 步骤 
A: 发 布 前 的 规划 准备 、 申 请 及 审批 发 布 、 同 步 灾 备 系统 、 试 点 运行 、 
评估 发 布 流程 。 


3. 发 布 管理 的 流程 目标 

发 布 管理 流程 的 目的 是 通过 规范 的 操作 流程 , 确保 在 生产 环境 中 系 
统 能 够 平稳 地 执行 变更 操作 ， 并 降低 一 切 风 险 ， 保 障 业 务 正 常 运行 。 发 
布 管理 的 流程 包括 : 明确 参与 发 布 管理 的 人 员 职 责 ， 系统 发 布 过 程 和 具 
体 实施 步骤 ,确保 系统 发 布 后 能 持续 安全 运行 。 在 发 布 前 ,需要 统一 上 
线 内 容 、 范 围 、 变 更 管理 等 ， 并 做 好 上 线 资源 维护 的 规划 ， 确 保有 历史 
记录 可 供 查询 。 


2.8.0 ”知识 管理 


1. 知识 

知识 是 可 以 指导 IT 运 维 人 员 进 行 思考 、 做 出 行为 和 交流 的 正确 和 
真实 的 洞察 、 经 验 和 过 程 的 总 集合 。 

2. 知识 管理 


知识 管理 流程 是 IT 运 维 和 人员 获取 各 种 来 源 的 知识 , 结合 存量 技术 ， 
实现 知识 的 生产 、 分 享 、 使 用 和 创新 的 过 程 。 


3. 知识 管理 的 流程 目标 

知识 管理 的 目标 在 于 通过 对 知识 库 的 有 效 管理 , 协助 企业 和 个 人 创 
造价 值 。 具 体 通过 收集 、 梳 理 、 归 纳 、 撰 写 等 手段 对 本 系统 运 维 知识 进 
行 整理 ， 形 成 文档 、 视 频 ， 并 选取 正确 、 科 学 的 维度 录入 知识 库 ， 形 成 
系列 课件 指导 新 人 通过 知识 库 进行 学 习 。 
2.3.7 日 志 管 理 

1. Hi 

日 志 记录 系统 用 户 的 操作 、 系 统 的 运行 状态 等 ， 由 计算 机 、 设 备 、 
软件 等 记录 。 日 志 按 功能 分 为 诊断 日 志和 统计 日 志 。 

诊断 日 志 包 括 外 部 服务 调用 和 返回 、 资 源 消耗 操作 、 容 错 行为 、 后 
台 操 作 、 配 置 操作 、 配 置 操作 等 。 统 计 日 志 包 括 用 户 访问 统计 、 磁 盘 占 
用 等 。 

2. 日 志 管 理 


日 志 管 理 对 系统 运行 至 关 重 要 , 日 志 管 理 的 质量 直接 关系 到 定位 系 
统 问题 的 速度 和 效率 。 例 如 ， 安 全 领域 的 日 志 主 要 记录 安全 攻击 行为 ， 
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防火 墙 情况 等 。 此 外 , 日 志 还 能 记录 事件 信息 ， 如 性 能 信息 、 故 障 检测 、 
入 侵 检测 〈 如 异常 访问 、 多 次 登录 错误 )。 通 过 观察 、 分 析 日 志 ， 预 先 
定位 系统 潜在 风险 ， 避 免 日 后 发 生 故 障 。 


3. 日 志 管理 的 流程 目标 


日 志 管理 的 重点 是 把 不 同 需求 的 日 志 进 行 分 类 , 方便 问题 分 析 和 问 
HABER. 而 对 于 每 一 种 需求 ， 存 在 特定 的 记录 格式 和 内 容 。 另 外 ， 需 要 
明确 规定 日 志 级 别 及 对 应 错误 处 理 方案 等 。 

除 此 之 外 , 日 志 管理 最 终 是 为 了 分 析 日 志 , 常见 的 日 志 管 理 系 统 包 
括 Web 服务 器 日 志和 Linux 日 志 。 通 过 可 自动 解析 标准 格式 日 志 的 日 
志 分 析 系 统 ， 用户 能 够 更 快速 高 效 地 解析 日 志文 件 ， 节 省 运 维和 人 员 的 工 
作 时 间 和 精力 ， 提 高 处 理 系统 问题 的 效率 。 


2.8.8 备份 管理 





1. 备份 


备份 旨 在 防止 数据 意外 或 人 为 丢失 , 具体 表现 为 把 重要 或 所 有 数据 
存放 到 长 期 可 靠 的 存储 介质 中 。 数 据 备份 的 主流 方式 有 光盘 库 备 份 、 数 
据 库 备 份 、 网 络 数据 备份 、 远 程 镜像 备份 等 。 用 于 备份 数据 的 设备 包括 
备份 服务 器 、 备 份 软件 〈 按 照 预先 设 定 的 程序 将 数据 备份 到 存储 介质 
上 )、 数 据 服务 器 、 备 份 介质 。 


2. 备份 管理 


因为 数据 传输 、 数 据 存储 和 数据 交换 过 程 中 , 任何 系统 都 有 失效 或 
故障 的 风险 ， 因 此 有 必要 进行 备份 管理 ， 从 备份 系统 中 还 原 数据 ， 最 大 
程度 地 降低 损失 。 从 信息 安全 的 角度 出 发 ， 备 份 管理 也 避免 了 人 为 恶意 
破坏 等 带 来 的 损失 。 数 据 备份 是 保护 数据 的 一 道 防线 ， 十 分 必要 。 


3. 备份 管理 的 流程 目标 


备份 管理 的 根本 目的 是 数据 恢复 ， 即 能 够 快速 、 正 确 、 全 面 地 恢复 
数据 。 除 此 之 外 ,备份 的 意义 不 仅 为 了 防范 意外 事件 的 发 生 ， 还 有 保存 
归档 历史 数据 的 功能 。 


24 ”系统 管理 工具 


系统 管理 工具 是 指 用 于 管理 企 事业 单位 信息 技术 系统 的 工具 。 系统 
管理 包括 收集 要 求 、 购 买 设备 和 软件 、 分 发 、 配 置 、 改 善 、 更 新 、 维 护 
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设备 和 软件 。 系 统管 理工 具 可 细 分 为 资产 管理 、 监 控 管 理 、 流 程 管理 、 
外 包 管 理 。 


2.4.1 资产 管理 

1. 资产 管理 

资产 管理 是 指 对 系统 的 资产 进行 管理 , 提高 资产 利用 率 。 对 大 数据 
系统 而 言 ， 资 产 主要 包括 硬件 资产 、 软 件 资产 、 云 资产 3 种 。 其 中 ， 硬 


件 资产 包含 服务 器 、 存 储 设备 、 网 络 设备 等 ， 软 件 资产 包含 系统 软件 、 
服务 许可 证 等 ， 云 资产 包括 云 服 务 器 、 云 数据 库 等 。 


2. 资产 管理 工具 


资产 管理 工具 主要 对 资产 采购 、 使 用 、 维 护 、 报 废 的 整个 周期 进行 
有 效 的 管理 和 保护 。 使 用 资产 管理 工具 主要 为 了 帮助 企业 管控 、 降 低 成 
本 ， 提 高 资产 利用 率 ， 同 时 帮助 企业 提高 风险 意识 ， 做 好 防范 工作 ， 提 
升 系统 的 安全 性 。 

主流 的 资产 管理 工具 有 CMDBuild 和 MAXIMO. CMDBuild 是 一 
款 开 源 的 .基于 Web 的 IT 资产 信息 和 服务 管理 系统 。 该 项 目 诞生 于 2005 
年 ， 长 期 的 目标 是 为 配置 资产 管理 应 用 程序 提供 一 个 完整 的 集成 环境 。 
主要 功能 包括 数据 库 建 模 、 仪 表盘 、 域 管理 、 视 图 管理 、 互 操作 和 连接 
器 、 文 档 管理 、 条 形 码 、 二 维 码 、 关 系 图 、 用 户 分 析 、 数 据 管理 模块 等 。 

MAXIMO 由 IBM 公司 开发 ， 主 要 涵盖 了 资产 、 服 务 、 人 合同、 物资 
与 采购 管理 。MAXIMO 人 允许 客户 开发 程序 ， 以 开展 预防 性 或 日 常 的 维 
护 。 通 过 MAXIMO 这 一 集中 化 的 管理 平台 ， 可 以 帮助 用 户 实现 资产 的 
部 署 、 规 范 、 监 控 、 校 准 和 成 本 核算 等 工作 , 减轻 了 用 户 的 负担 ， 提 高 
了 工作 效率 。 


24.2 ”监控 管理 





1. 监控 管理 

监控 管理 通过 把 管理 和 技术 结合 ， 监 视 基 础 设施 和 IT 基础 结构 ， 
即时 发 现 并 通知 故障 与 异常 。 此 外 , 监控 数据 的 搜集 与 整理 是 实现 事件 
管理 、 问 题 管理 等 的 基础 ， 以 便 实 现 大 数据 高 可 用 性 的 终极 目标 。 


2. 监控 管理 工具 


监控 管理 工具 需要 结合 人 工 判断 ， 综 合 监控 大 数据 系统 的 应 用 情 
况 ， 针 对 故障 发 起 事件 和 问题 ， 并 保证 系统 正常 运行 。 目 前 ,主流 的 监 


控 管 理工 具有 Zabbix 和 Tivoli. Zabbix 是 开源 软件 ， 以 Web 界面 为 基 
础 ,主要 有 分 布 式 系统 监视 和 网 络 监视 等 功能 。 作 为 一 款 开 源 的 监控 产 
品 ，Zabbix 拥有 其 他 商业 监控 产品 的 绝 大 多 数 基 本 功能 : 对 服务 器 、 交 
换 机 、 数 据 库 、 中 间 件 、 进 程 、 日 志 等 对 象 进行 标准 化 的 监控 ， 并 且 
Zabbix 还 具备 了 多 样 化 的 报警 方式 、 报表 定制 和 展示 、 自 动 发 现 网 络 中 
的 新 入 网 设备 等 功能 。 Zabbix 的 一 大 优点 是 其 服务 器 提供 通用 接口 , 用 
以 开发 、 完 善 已 有 监控 ; 另 一 大 优点 是 实现 复杂 多 条 件 的 警告 。 

Tivoli 由 IBM 公司 开发 , 它 的 主要 服务 对 象 是 大 中 型 企业 的 系统 管 
理 平台 。 和 Zabbix 类 似 ，Tivoli 有 自己 的 软件 ， 对 操作 系统 、 数 据 库 、 
应 用 等 进行 监控 ， 再 把 存储 的 监控 数据 以 报表 的 形式 表示 出 来 。Tivoli 
事件 管理 中 心 记 录 了 报警 日 志 ， 方 便 运 维 人 员 查看 和 分 析 。 


2.4.3 ”流程 管理 


1. 流程 管理 


流程 管理 以 规范 化 的 业务 流程 为 中 心 ， 旨 在 通过 管控 IT 服务 流程 
提高 绩效 。 流 程 管理 具体 包括 流程 分 析 、 流程 定义 与 重 定义 、 资 源 分 配 、 
时 间 安 排 、 流 程 质量 与 效率 测评 、 流 程 优化 等 ， 如 图 2-4 所 示 。 


流程 质量 控制 
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图 2-4 流程 管理 
2. 流程 管理 工具 
流程 管理 工具 主要 以 标准 化 方式 管理 和 监控 流程 , 运 维 人 员 可 借 此 
进行 实时 派 单 返 单 、 超 时 提醒 、 监 督 管控 、 业 绩 考核 等 。 主 流 的 流程 管 
理工 具有 OTRS 和 SeviceDesk Plus. 
OTRS 是 一 款 开源 的 IT 服务 和 工 单 管理 软件 OTRS 的 优点 在 于 它 
可 以 把 通过 各 类 渠道 提交 的 服务 请 求 (request) 按照 不 同 的 服务 级 别 进 
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行 归 类 ， 放 在 不 同 的 队列 里 ， 服 务 人 员 再 根据 OTRS 不 同 队列 跟踪 或 回 
复 请 求 。 相 比 传统 的 流程 管理 工具 ，OTRS 在 查询 、 处 理 、 跟 踪 请 求 等 
场景 下 具有 更 高 的 效率 。 

SeviceDesk Plus 由 ManageEngine 公司 推出 ， 市 场面 世 迄 今 ， 已 经 
得 到 广泛 的 应 用 。ServiceDesk Plus 已 在 185 个 国家 服务 逾 10 万 家 客户 ， 
并 通过 了 ITIL 认证 。 该 软件 功能 多 样 ， 包 括 事件 管理 、 变 更 管理 、 采 
购 管理 、 合 同 管理 等 ， 并 支持 报表 。 使 用 的 流程 主要 包括 服务 台 指派 用 户 
请 求 、 工 程 师 处 理工 单 和 工程 师 关 闭 工 单 。 此 外 ，ServiceDesk Plus 还 支 
持 用 户 查 询 历史 记录 。 


2.4.4 ”外 包 管理 


1. 外 包 管 理 


外 包 管 理 是 指 企 业 针 对 外 包 人 员 统 一 进行 管理 , 要 求 外 包 人 员 遵 守 
相关 规定 ， 加 强人 员 出 勤 及 业绩 考核 等 。 

2. 外 包 管 理工 具 

外 包 管理 能 有 效 约束 外 包 人 员 的 工作 行为 , 同时 加 强 企业 运 维 的 管 
ds, 提升 运 维 人 员 各 司 其 职 、 协 调配 合 的 能 力 。 外 包 管 理工 具 内 容 相 对 
简单 ,主要 包括 考勤 管理 等 , 一 般 都 是 与 现 有 系统 的 人 力 资 源 管 理 模 块 
相 结 合 。 


25 ”系统 管理 制度 规范 
2.5.1 ”系统 管理 标准 


当前 , 在 IT 服务 领域 内 ，ISO 20000 标准 应 用 最 为 广泛 ,国家 间 认 
可 度 高 。ISO 20000 标准 始 于 1995 年 ， 几 经 修改 , 现 已 成 为 得 到 广泛 接 
受 的 IT 服务 标准 。ISO 20000 标准 已 经 构建 起 全 方位 的 IT 服务 管理 体 
系 模型 ， 实 现 从 服务 建立 、 实 施 、 运 作 、 监 测 、 评 估 、 维 护 到 持续 改进 
的 一 系列 流程 管理 。 通 过 以 一 种 标准 化 的 模式 来 管理 各 种 IT 服务 ， 为 
企 事 业 单 位 起 到 降低 IT 运营 成 本 、 管 控 IT 风险 、 提 升 IT 服务 质量 的 
功效 ， 以 满足 客户 和 业务 对 IT 服务 的 需求 。 

IT 系统 管理 主要 包括 4 个 方面 : @ 职责 管理 ， 管 理 对 象 主要 包括 
职责 、 文 件 要 求 与 能 力 、 意 识 和 培训 三 大 主要 模块 。@ IT 服务 管理 的 
计划 与 实施 , 主要 包括 依照 质量 管理 的 P-D-C-A 循环 ,其 中 P 代表 Plan, 
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D 代表 Do, C 代表 Check, A 代表 Action, X 4 个 关键 模块 构成 了 “ 计 
划一 执行 一 检查 一 纠正 ”的 循环 链 , 保证 IT 服务 管理 的 持续 改进 。@ 变 
更 或 新 增 IT 服务 目录 的 计划 与 实施 。@ 服务 管理 流程 ， 为 IT 服务 提 
供 四 大 过 程 管理 ， 分 别 是 关系 过 程 、 解 决 过 程 、 控 制 过 程 和 发 布 过 程 。 
大 数据 系统 管理 主要 关注 的 是 质量 管理 ， 从 系统 的 规划 、 实 施 、 监 
控 、 验 收 等 阶段 进行 质量 管控 ， 保 证 系统 服务 的 质量 。 同 时 ， 在 这 一 过 
程 中 ， 保 持 与 系统 最 终 用 户 的 持续 沟通 ， 确 保 业 务 需 求 得 到 满足 。 


2.5.2 系统 管理 制度 
系统 管理 制度 需要 根据 大 数据 系统 的 具体 情况 , 基于 ISO 20000 标 


准 进行 细则 的 制定 。 一 般 来 说 , 包括 业务 、 系 统 、 安 全 、 内 控 4 个 方面 ， 
涉及 规划 、 实 施 、 运 营 、 评 价 4 个 阶段 ， 具 体 如 表 2-2 所 示 。 


表 2-2 系统 管理 制度 














A a 运营 评价 
制定 IT 服务 战略 ; 
p | 管理 系统 投 次 成 BEATER | wea, 
MEL 能 力 管理 ; inka 
符合 内 外 部 标准 业务 连续 性 管理 | 
政策 
确定 系统 体系 事件 、 问 题 管理 ; 、 
系 | 结构; IT 项 目 内 部 治理 ; | 发布 、 变 更 管理 ; E 
统 | 确 定 技术 方向 ; |IT 项 目 外 部 治理 | 配置 库 管理 ; 和 
管理 项 目 组 合 运营 监控 管理 T 
确定 企业 系统 安 
全 策略 ; 定义 系统 安全 控 | 
安 | 制 定 企业 系统 安 | 制 目标 ; pip 系统 安全 风险 评价 ; 
全 | 全 标准 ; 系统 安全 风险 评估 ; | 和 ^ 安全 改进 措施 评价 
制定 系统 安全 管 | 制定 安全 风险 措施 
理 范围 
内 部 控制 | 系统 实施 控制 ， | 内 部 控制 和 持续 | 服务 水 平 评估 与 监控 ; 
控 | 录 统 市 计 项 划 | 系统 实施 审计 act 评估 内 控 措施 有 效 性 
2.5.8 系统 管理 规范 


ITIL 提供 了 服务 管理 的 最 佳 实践 指南 ， 为 高 品质 IT 服务 的 交付 和 
支持 提供 了 一 套 客观 、 严 说、 可 量化 的 综合 流程 规范 ， 是 系统 管理 的 最 
佳 规范 。 


在 20 世纪 80 年 代 末 期 ， 英 国 国家 计算 机 和 电信 和 总 局 首次 研发 出 
ITIL〔( 信 息 技术 基础 架构 库 )， 塔 称 创举 。 随 着 技术 的 不 断 迭 代 更 新 ， 
历经 3 代 之 后 ，ITIL 已 经 走 过 近 40 个 年 头 。 现 如 今 ，ITIL 已 经 逐渐 在 
英国 各 行 各 业 乃 至 全 球 范围 内 得 到 广泛 的 应 用 。 经 历 3 个 版 本 的 迭代 
后 ， 目 前 ITIL 已 经 是 V3 的 版 本 ， 新 的 V3 版 本 ITIL 除了 保存 上 一 版 
的 IT 服务 能 力 模块 外 , 还 引入 了 IT 服务 生命 周期 的 概念 ， 其 中 创新 性 
地 界定 了 五 大 进程 ， 即 IT 服务 生命 周期 的 战略 、 设 计 、 转 化 、 运 营 及 
持续 改进 。ITIL V3 侧重 于 持续 评估 并 改进 IT 服务 交付 , 通过 服务 支持 
和 服务 提供 这 两 大 核心 服务 流程 模块 完成 IT 部 分 与 其 他 部 分 的 衔接 ， 
确保 IT 服务 管理 更 好 地 支持 企业 业务 正常 运行 。 大 数据 系统 管理 中 应 
用 ITIL 规范 能 帮助 企 事业 单位 及 时 应 对 财务 、 销 售 、 市 场 等 业务 的 改 
变 , 协调 各 个 业务 部 门 ,从 而 降低 成 本 、 缩 短 周期 时 间 、 提 高 服务 质量 ， 
从 而 提高 客户 满意 度 。 


26 日常 巡 检 


在 运 维 工作 中 需要 运 维 人 员 高 度 关 注 系统 的 软 硬 件 健康 状态 , 越 早 
获知 系统 健康 状态 的 变化 ， 越 早 进行 处 置 ， 越 能 有 效 保障 运行 的 安全 。 
为 获知 系统 软 硬 件 状态 , 采用 的 大 多 方法 是 通过 自动 化 的 监控 实现 , 但 
是 监控 的 覆盖 面 毕竟 是 有 限 的 ， 一 方面 有 些 自动 化 监控 工具 未 建设 就 
绪 ,不 能 完全 覆盖 监控 项 ; 另 一 方面 自动 化 监控 的 方式 过 于 程式 化 ， 缺 
乏 机 动 变通 的 能 力 。 这 时 需要 引入 巡 检 的 机 制 ， 人工 对 系统 的 软 硬 件 状 
态 进行 检查 。 


2.6.4 检查 内 容 分 类 


检查 内 容 主 要 有 两 类 : 一 类 主要 与 环境 及 设备 巡 检 相关 ; 另 一 类 主 
要 与 应 用 系统 相关 。 


1. 环境 和 设备 检查 


环境 和 设备 的 检查 主要 包括 对 机 房 环境 和 机 房 内 运行 设备 的 检查 。 
机 房 由 于 物理 上 空间 与 运 维和 人 员 分 开 , 所 以 不 在 现场 不 一 定 能 准确 地 掌 
握 机 房 内 环境 的 实际 情况 , 所 以 通常 还 会 安排 人 员 以 机 房 巡 检 的 方式 进 
入 到 机 房 内 进行 实地 检查 。 主 要 的 检查 内 容 包 括 机 房 内 的 温度 、 湿 度 、 
清洁 情况 和 设备 警告 提示 灯 状 态 等 信息 。 
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2. 应 用 系统 检查 


应 用 系统 的 巡 检 通常 用 于 对 应 用 系统 软件 运行 状态 的 检查 , 虽然 这 
类 检查 通常 不 需要 实地 到 机 房 内 进行 , 但 仍然 需要 通过 一 定 方式 进行 检 
查 。 如 检查 确认 应 用 系统 是 否 可 登录 、 确 认 接 口交 互 的 状态 、 检 查 批 处 
理 任务 的 完成 情况 、 检 查 特 定 关 键 字 的 输出 等 。 


2.6.2 ” 巡 检 方法 分 类 


从 检查 的 方法 来 看 , 日 常 巡 检 工 作 可 以 分 成 巡 检 、 点 检 、 厂 商 巡 检 等 方式 。 
1. XS 


这 类 检查 通常 定期 通过 巡视 的 方式 完成 , 通常 用 于 环境 和 设备 的 巡 
检 。 实 现 上 通常 安排 巡 检 人 员 在 一 个 时 间 段 内 以 特定 的 频次 进行 巡视 ， 
如 每 天 两 次 对 生产 机 房 巡 视 , 重点 关注 环境 的 异常 情况 和 核心 生产 设备 
硬件 上 的 特定 告警 提示 。 虽 然 现在 有 动力 环境 系统 实时 监控 机 房 环 境 ， 
有 自动 化 监控 系统 监控 硬件 告警 情况 , 但 探 针 不 可 能 无 死角 部 署 , 采集 
的 数据 也 可 能 会 失真 ,所 以 适度 的 巡 检 是 必要 的 。 巡 检 的 内 容 主要 包括 
以 下 方面 。 

O 巡 检 机 房 温度 、 空 调 状态 等 环境 参数 。 

O 巡 检 机 房 内 整洁 情况 ， 避 免 纸箱 等 杂 物 堆放 。 

O x 巡 检 机 房 内 的 存储 、 服 务 器 等 硬件 设备 , 检查 设备 状态 指示 灯 等 。 

口 巡 检 机 房 特定 的 电子 设备 ， 查 看 面板 液晶 屏 状态 。 


2. 点 检 


这 类 检查 通常 是 在 特定 的 时 间 内 完成 特定 的 检查 项 目 , 通常 用 于 应 
用 系统 的 检查 。 这 类 检查 针对 性 很 强 ， 时 效 性 很 强 ， 如 在 系统 业务 开始 
前 ， 检 查 系统 是 否 可 以 登录 ， 虽 然 很 简单 ， 但 也 是 提前 发 现 问题 的 有 效 
手段 。 点 检 内 容 主要 包括 下 列 类 型 。 

口 在 开 市 前 登录 业务 系统 界面 ， 检 查 登 录 是 否 成 功 ， 检 查 基 本 参 

数 设 置 是 否 正确 。 

O 定期 打开 门户 网 站 ， 检 查 响 应 速度 是 否 正 常 ， 检 查 行情 信息 是 
否 正常 更 新 。 
定期 登录 邮件 系统 ， 检 查 是 否 有 需要 处 理 的 邮件 。 
登录 监控 系统 ， 查 看 监控 系统 界面 展现 的 告警 信息 。 
在 指定 时 间 检 查核 心 交易 服务 器 的 对 时 情况 。 
检查 批 处 理 作业 的 运行 情况 。 


OCoco 


3. 厂商 巡 检 


日 常 的 点 检 、 巡 检 工 作 能 够 发 现 大 多 的 常见 问题 , 但 是 实际 运行 环 
境 中 存在 些 更 复杂 的 问题 , 尤其 是 中 间 件 和 底层 硬件 等 的 运行 情况 ,如 
性 能 的 缓慢 下 降 、 容 量 的 逐步 吃紧 、 运 行 中 出 现 的 某 些 轻 微 的 提示 等 。 
这 些 信息 通常 不 是 很 紧迫 的 问题 ,不 需要 立即 关注 处 理 ， 但 是 如 果 长 期 
得 不 到 关注 ， 也 许 会 引发 严重 的 问题 。 对 于 中 间 件 、 硬 件 的 这 类 信息 ， 
厂商 通常 有 更 丰富 的 处 理 经 验 , 因此 会 引入 厂商 巡 检 的 方式 , 就 一 段 时 
间 的 运行 情况 进行 分 析 。 这 类 巡 检 主要 包括 下 列 内 容 。 

口 厂商 对 数据 库 产品 的 运行 情况 进行 巡 检 ， 如 Oracle. DB2. 
厂商 对 Web 中 间 件 产品 的 运行 情况 进行 巡 检 , 如 WebLogic, MQ 等 。 
厂商 对 硬件 设备 的 运行 情况 进行 巡 检 ， 如 存储 、 磁 带 库 、 服 务 
器 、 交 换 机 、 防 火 墙 等 。 


2.6.3 ” 巡 检 流程 


(m) 
Q 


1. 巡 检 规划 


巡 检 无 论 以 何 种 方式 ， 都 需要 提前 进行 规划 准备 ， 然 后 按 计划 进行 
实施 。 在 巡 检 的 规划 过 程 当 中 ， 需 要 规划 的 内 容 包括 下 列 方面 。 
D 巡 检 的 时 间 及 频率 明确 巡 检 的 时 间 计 划 ， 避 免 遗 漏 。 
口 巡 检 的 人 员 安 排 。 由 于 巡 检 是 计划 内 的 工作 ， 人 员 安 排 务必 有 
保障 。 
Ch 巡 检 内 容 : 巡 检 内 容 通常 是 明确 的 。 尤 其 对 于 非 厂 商 巡 检 ， 通 
常会 明确 到 具体 巡 检 过 程 中 的 操作 命令 ， 这 能 有 效 控制 操作 风 
险 ; 即使 厂商 巡 检 , 也 有 对 巡 检 内 容 的 规划 ,明确 巡 检 的 范围 。 


2. 巡 检 实施 


巡 检 实施 是 按 计划 开展 的 ， 在 这 过 程 中 重要 的 是 操作 风险 的 控制 ， 
一 方面 要 确保 巡 检 的 实施 ， 另 一 方面 要 避免 因为 巡 检 引入 其 他 风险 。 

D 建立 操作 复核 机 制 : 巡 检 操作 需要 有 复核 , 避免 误 操 作 的 发 生 。 

口 限制 部 分 有 风险 的 巡 检 的 操作 : 避免 在 巡 检 过 程 中 采用 某 些 可 
能 导致 系统 软 硬 件 异 常 的 命令 ， 经 常会 通过 限制 巡 检 用 户 的 权 
限 进行 管控 。 

O 引入 操作 审计 机 制 : 通过 录 屏 工具 、 堡 又 机 、 监 控 录 像 等 方式 
记录 巡 检 操作 过 程 ， 确 保 操作 可 审计 。 

O ”准确 记录 巡 检 情况 ， 便 于 后 续 的 处 理工 作 。 
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3. 巡 检 记录 处 理 

巡 检 过 程 中 会 发 现 一 些 问 题 ， 这 些 问 题 需要 及 时 进行 分 析 处 理 。 对 
于 发 现 的 问题 , 第 一 时 间 请 相关 人 员 处 理 响 应 , 通常 通过 运 维 事件 流程 
进行 跟踪 处 理 ， 必 要 的 转 入 问题 流程 进一步 分 析 处 置 。 


2.7 ”作业 与 练习 
一 、 填 空 题 
1. 大 数据 的 特征 具有 5 个 V 的 特点 ,分 别 是 : 





2. 大 数据 系统 具有 的 4 个 特点 分 别 是 : 

3. 大 数据 系统 主要 的 应 用 场景 是 : . s š 
4. Hadoop 三 大 发 行商 分 别 是 : s ` ä 
5. 大 数据 系统 的 测试 验收 需要 进行 的 测试 有 : s š 

















6. 大 数据 系统 的 3 层 管理 对 象 分 别 是 : 、 
7. 大 数据 系统 的 软件 主要 包括 : 、 、 


o 


8. 大 数据 的 系统 软件 使 用 中 要 注意 : 











9. 大 数据 系统 的 硬件 基础 主要 包括 : 


` o 





























10. 系统 数据 主要 包括 : S 

4 种 。 
ll. 系统 管理 的 内 容 主要 包括 8 个 部 分 ， 分 别 是 : 
12. 日 志 按 功能 分 为 : 3 类 。 
13. 数据 备份 的 4 个 组 成 部 分 分 别 是 : $ s 
14. 主流 的 资产 管理 工具 有 : 和 
15. 主流 的 监控 工具 有 : 和 





16. 主流 的 流程 管理 工具 有 : 和 


17. 质 量 管理 的 P-D-C-A 循环 包括 : á š 








18. 系统 管理 制度 包括 : 4 





个 方面 。 
19. ITIL 服务 生命 周期 的 5 个 阶段 分 别 是  __、 、 


二 、 简 述 题 
1， 简 述 大 数据 系统 主要 的 3 种 应 用 场景 和 对 应 的 大 数据 系统 技术 
方案 。 





. 简 述 安装 部 署 HDP 的 主要 步骤 。 
. 列举 几 个 具有 代表 性 的 大 数据 系统 软件 ， 并 简要 说 明 其 作用 。 
. 简 述 事件 管理 的 流程 目标 。 
. 简 述 问题 管理 的 流程 。 
.为 什么 说 IT 运 维 管理 的 基础 是 配置 管理 ? 
.为 什么 要 做 好 变更 管理 ? 
. 你 认为 日 志 管理 最 大 的 作用 是 什么 ? 
.如 果 做 好 了 安全 防护 措施 ， 大 数据 系统 还 需 不 需要 备份 管理 ? 
10. 简 述 主流 的 监控 管理 工具 ,并 探讨 如 何 更 好 地 利用 这 些 工具 ? 
11. 流程 管理 的 意义 是 什么 ? 
12. 在 大 数据 系统 管理 中 遵循 ITIL 规范 有 什么 好 处 ? 
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故障 管理 


即使 再 精心 设计 的 系统 , 在 运行 过 程 中 , 由 于 一 些 无 法 预料 的 因素 ， 
也 会 遇 到 各 种 各 样 的 故障 。 作 为 一 个 合格 的 系统 运 维 人 员 , 首先 要 对 系 
统 的 架构 、 特 征 和 弱点 有 所 人 掌握， 其次,“ 工 和 欲 善 其 事 ， 必 先 利 其 器 ”， 
排查 和 消除 故障 ， 需 要 先 搭建 并 且 掌握 先进 顺手 的 工具 软件 ; 再 者 ， 需 
要 通过 一 个 完整 的 流程 和 制度 规范 对 故障 进行 报告 、 解 决 和 管理 。 

本 章 更 强调 的 是 教 给 读者 故障 管理 的 通用 方法 和 思路 , 使 读者 对 运 
维 工作 的 故障 管理 有 一 定 掌握 , 并 在 后 续 的 工作 过 程 中 起 到 一 定 帮助 和 
指导 作用 。 


3.1 集群 结构 


下 面 以 CDH (Cloudera Distribution Hadoop) 版 的 Hadoop 集群 介 
绍 集群 结构 。 软 件 架构 如 图 3-1 所 示 。 

CDH 的 软件 体系 结构 中 包含 了 以 下 模块 : 系统 部 署 和 管理 ， 数 据 
存储 ， 资 源 管 理 ， 处 理 引擎 ， 安 全 、 数 据 管理 ， 工 具 库 以 及 访问 接口 。 
一 些 关键 组 件 的 角色 信息 如 表 3-1 所 示 。 

集群 服务 器 按照 节点 承担 的 任务 分 为 管理 节点 和 工作 节点 。 管 理 节 
点 上 一 般 部 署 各 组 件 的 管理 角色 ， 工 作 节点 一 般 部 署 有 各 角色 的 存储 、 
容器 或 计算 角色 。 根 据 业 务 类 型 不 同 ， 集 群 具 体 配 置 也 有 所 区 别 ， 以 实 
时 流 处 理 服务 集群 为 例 : Hadoop 实时 流 处 理性 能 对 节点 内 存 和 CPU 有 
较 高 要 求 ， 基 于 Spark Streaming 的 流 处 理 消 息 吞 吐 量 可 随 着 节点 数量 
增加 而 线性 增长 。 硬 件 配置 如 表 3-2 所 示 。 
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图 3-1 CDH 架构 
表 3-1 CDH 功能 


BOO 组 t | 管理 角色 | 工作 角色 


Cloudera Manager 
Cloudera Manager Server 
Agent 


系统 部 署 | Cloudera Manager 
和 管理 


ClouderaDirector | | 


NameNode DataNode 


Secondary NameNode 
HDFS 
数据 存储 JournalNode 
FailoberController 
HBase RegionServer 
NodeManager 
资源 管理 | YARN = = 
Job HistoryServer 
Spark 
Impala Catalog Server Impala Daemon 
处 理 引 擎 | Impala P : - 


Impala StateStore 





Search Solr Server 
Sentry Sentry Server 
«S % Navigator KeyTrustee 


据 管理 Cloudera Navigator | Navigator Metadata Server 














Navigator Audit Server 





Hive Metastore 





工具 库 Hive 











Hive Server2 





表 3-2 硬件 配置 

















工作 节点 

处 理 器 两 路 Intel@ 至 强 处 理 器 ,可 选用 | 两 路 Intel@ 至 强 处 理 器 ， 可 选 
E5-2630 处 理 器 用 E5-2660 处 理 器 

内 核 数 6 核 /CPU (或 者 可 选用 8 核 / | 6 核 /CPU (或 者 可 选用 8 核 / 
CPU)， 主 频 2.3GHz 或 以 上 CPU)， 主 频 2.0GHz 或 以 上 

内 存 64GB ECC DDR3 64GB ECC DDR3 

硬盘 2 个 2TB 的 SAS 硬盘 (3.5 F), | 4~12 4 ATB 的 SAS 硬盘 (3.5 
7200RPM, RAIDI 寸 )，7200r/min， 不 使 用 RAID 
至 少 两 个 1Gb/s 以 太 网 电 口 ， | 至 少 两 个 1Gb/s 以 太 网 电 口 ， 

网 络 推荐 使 用 光 口 提高 性 能 。 推荐 使 用 光 口 提高 性 能 。 
可 以 两 个 网 口 链 路 聚合 提供 更 | 可 以 两 个 网 口 链 路 聚合 提供 更 
高 带宽 高 带宽 

硬件 尺寸 1U 或 2U 

接 入 交换 机 | 48 OF IRI, BREFIE, WHER 

聚合 交换 机 

(可 选 ) 4 口 SFP+ 万 兆 光纤 核心 交换 机 , 一 般 用 于 50 节点 以 上 大 规模 集群 


一 个 中 等 规模 的 集群 ， 集 群 的 节点 数 一 般 在 20 一 200， 通 常 的 数据 
存储 可 以 规划 到 几 百 太 字 节 , 适用 于 一 个 中 型 企业 的 数据 平台 , 或 者 大 
型 企业 的 业务 部 门 数 据 平台 。 节点 的 复 用 程度 可 以 降低 , 可 以 按照 管理 
节点 、 主 节点 、 工 具 节 点 和 工作 节点 来 划分 。 


3.2 ”故障 报告 
3.2.1 发 现 


在 运 维 过 程 中 , 发 现 故障 的 方式 一 般 分 为 用 户 报告 、 监 控告 警 和 人 
工 检查 3 种 。 用 户 报 告发 现 故障 占 总 故障 数量 的 比例 越 低 , 说 明 运 维 的 
成 熟 度 越 高 ， 大 部 分 故障 都 是 运 维 团 队 自 己 发 现 ， 提 前 处 理 掉 了 。 监控 
告警 指 的 是 通过 监控 系统 配置 的 监控 策略 ， 自 动 发 现 异常 ， 通 过 界面 、 
声音 、 邮 件 、 短 信 的 方式 通知 到 了 管理 员 。 而 人 工 检查 是 监控 告警 的 补 
充 ， 对 于 监控 未 覆盖 到 的 指标 项 ， 通 过 人 工 定 期 的 巡 检 ,诊断 系统 的 健 
康 情况 。 

在 故障 发 现 之 后 ， 需 要 精确 描述 ， 包 括 如 何 发 现 了 故障 〈 如 果 是 用 
户 ， 用 户 的 联系 方式 要 保留 ， 便 于 后 期 回访 )， 故 障 发 生 的 时 间 点 ， 故 
障 的 现象 ， 故 障 暂 时 的 影响 等 ， 只 有 把 这 些 描述 清楚 了 ， 才 有 可 能 在 后 
续 的 流程 中 提升 效率 。 一 个 典型 的 故障 记录 单 如 表 3-3 所 示 。 


R33 ”故障 记录 单 











2 类 记 录 

单 号 20170511000328 

状态 己 指派 

等 待 代码 等 待 管理 员 接 单 

记录 人 员 张 三 

分 析 员 李 四 

报告 时 间 2017-05-11 11:18:20 

客户 王 五 

客户 组 织 业务 一 部 

客户 电话 XXX 

客户 邮箱 XKX 

VIP 属性 VIP 

故障 来 源 用 户 报告 

摘要 大 数据 分 析 系 统 X 无 法 登录 
今天 10:00， 李 四 使 用 Chrome 浏览 器 访问 X 系 统 时 ,在 

详细 信息 输入 用 户 名 和 密码 之 后 ， 页 面 出 现 错误 信息 “服务 器 内 
部 故障 308， 请 联系 管理 员 ”， 截 图 如 附件 所 示 

故障 分 类 大 数据 分 析 系 统 /X 系 统 / 用 户 登 录 故 障 

故障 级 别 低 


3.2.2 ”影响 分 析 


在 运 维 部 门 ， 一般 会 有 一 、 二 、 三 线 的 人 员 划 分 : 一 线 人 员 指 的 是 
客服 人 员 或 者 监控 值班 人 员 ， 负 责 处 理 日 常 性 的 用 户 询问 和 故障 处 理 ; 
二 线 人 员 指 的 是 专业 的 系统 管理 员 ， 如 网 络 管理 员 、 服 务 器 管理 员 、 应 
用 管理 员 等 ， 当 一 线 人 员 处 理 不 了 故障 时 , 会 有 二 线 的 管理 员 跟 进 ; 三 
线 指 的 是 系统 开发 人 员 ， 产 品 供应 商 ， 当 发 生 比 较 深层 的 故障 ， 如 软件 
开发 的 问题 ， 操 作 系统 缺陷 或 者 深层 故障 ， 会 交 给 三 线 人 员 处 理 。 

当 故 障 发 生 之 后 , 一 线 人 员 会 通过 故障 记录 单 记录 下 故障 的 详细 信 
息 ， 然 后 分 析 这 是 一 个 服务 器 端的 整体 故障 还 是 一 个 客户 端的 局 部 故 
障 。 这 个 可 以 从 故障 发 生 的 范围 和 服务 器 端 检 查 两 方面 入 手 ， 如 果 有 3 
个 以 上 的 用 户 反 馈 该 问题 , 说 明 该 故障 的 影响 范围 已 经 较 大 ; 如 果 只 是 
单个 用 户 反 馈 该 问题 ， 说 明 是 局 部 故障 的 可 能 性 较 大 。 

判断 故障 的 影响 程度 对 后 续 处 理 有 着 直接 的 影响 , 不 同 的 影响 程度 
对 应 着 不 同 的 处 置 手段 。 在 运 维 工 作 中 , 每 天 面 对 的 都 是 各 种 各 样 的 故 
障 ， 如 果 对 待 每 个 故障 都 动用 所 有 资源 ， 可 能 会 造成 运 维 成 本 的 急剧 增 








加 ; 如 果 对 每 个 故障 都 不 紧 不 慢 , 可 能 会 影响 系统 的 可 用 性 甚至 造成 经 
济 损 失 。 对 故障 的 影响 程度 进行 分 级 , 然后 安排 合适 的 资源 给 定 合 适 的 
预期 时 间 解 决 问题 是 一 般 运 维 工作 的 经 验 。 故 障 影响 分 析 如 表 3-4 所 示 。 


表 3-4 故障 影响 分 析 














类 sj 识别 标准 处 理 方法 
gp | 核心 系统 整体 功能 或 者 核心 功 | 立即 上 报 部 门 或 者 组 织 管理 层 ， 
i 能 失效 协调 所 有 相关 资源 参与 处 置 
核心 系统 的 非 核心 功能 失效 
调 二 线 立即 参与 处 
a 非 核心 系统 的 整体 功能 失效 。 m em 
中 非 核心 系统 的 部 分 功能 失效 | 协调 二 线 参与 处 置 
个 别 用 户 反馈 无 法 使 用 ; 
一 线 参 与 it— 4 
* 尚未 导致 功能 受 影响 的 故障 etree ee 
mj、 | 不 对 可 用 性 造成 影响 ， 暂 时 不 | ， 
微小 | 处 理 也 没关系 iind 
3.3 ”故障 处 理 
3.3.1 故障 诊断 


参考 大 数据 系统 的 系统 架构 ， 从 故障 发 生 的 位 置 来 看 ， 可 以 分 为 应 
用 层 故 障 、 系 统 层 故 障 、 网 络 层 故 障 、 硬 件 层 故障 、 机 房 环 境 故 障 、 
客户 端 故障 等 。 从 故障 的 原因 出 发 ， 在 运 维 过 程 中 的 常见 故障 如 表 3-5 


所 示 。 


故障 原因 
人 为 操作 失误 


表 3-5 常见 故障 
jà — xk 
由 于 人 为 操作 失误 造成 的 故障 ， 例 如 误 删 了 系统 重要 文件 





性 能 容量 问题 


由 于 访问 量 增加 ， 运 行 时 间 的 累积 ，JVM HEAP 空间 、 磁 盘 
空间 、 线 程 数 、 网 络 连接 数 、 打 开 文 件数 等 超 限 





软件 缺陷 


软件 在 开发 过 程 中 遗留 的 缺陷 , 常常 在 升级 变更 之 后 发 生 , 所 
以 也 有 变更 是 故障 之 母 的 说 法 





硬件 故障 


兼容 性 问题 





服务 器 零件 故障 ， 当 集群 中 的 服务 器 达到 一 定 规模 时 , 硬件 故 
障 难免 发 生 

由 于 应 用 、 服 务 器 、 网 络 等 配置 参数 的 冲突 ， 放 在 一 个 环境 运 
行 时 , 产生 了 问题 , 例如 杀毒 软件 影响 了 应 用 的 运行 , 备份 任 
务 干扰 了 网 络 流量 ， 防 火 墙 阻 断 了 应 用 的 长 连接 等 


在 故障 诊断 中 ， 有 如 下 几 个 重要 因素 。 


(1) 故障 的 完整 描述 

如 本 节 前 文 所 述 , 准确 的 故障 描述 至 关 重 要 , 能 帮助 管理 员 把 故障 
的 范围 缩小 , 对 故障 的 发 生源 有 个 预 判定 位 , 避免 在 大 范围 内 浪费 资源 。 
通过 故障 的 完整 描述 ， 应 该 能 核实 以 下 信息 : 该 问题 的 具体 报错 码 ， 具 
体 报错 时 间 , 是 不 是 首次 发 生 等 。 如 果 信 息 比 较 模 糊 , 还 需要 反复 确认 。 

(2) 监控 信息 、dump 文件 、 日 志 等 现场 快照 

故障 发 生 时 的 现场 信息 是 排查 故障 的 关键 , 如 同 车 祸 现场 的 视频 记 
录 一 样 ， 日志、 监控 信息 、dump 文件 、 网 络 抓 包 情况 是 故障 现场 的 记 
录 数 据 。 一 些 没有 经 验 的 开发 者 往往 由 于 开发 的 应 用 输出 的 日 志 太 少 ， 
在 生产 环境 出 现 问题 时 ， 没 有 任何 记录 ， 排 查 故障 时 也 毫 无 头绪 。 大 多 
数 故障 都 可 以 通过 日 志 发 现 端 倪 , 一 些 复杂 的 故障 要 依靠 多 种 手段 才能 
定位 原因 。 如 果 当 时 无 法 定位 原因 ,， 则 需要 考虑 通过 降低 日 志 输 出 的 级 
别 ， 在 关键 位 置 增加 日 志 ， 部 署 一 些 详细 监 控 的 策略 ， 等 待 故障 再 次 发 
生 时 ， 能 够 捕获 更 多 的 信息 。 

(3) 文档 、 经 验 和 知识 

通过 现场 快照 发 现 了 错误 的 具体 信息 后 ， 还 要 结合 系统 本 身 的 文 
档 、 知 识 库 或 者 管理 员 的 经 验 ， 进 行进 一 步 分 析 。 例 如 已 经 发 现 了 服务 
器 应 用 输出 的 日 志 有 明显 的 错误 信息 , 显示 网 络 连 接 失 败 。 可 能 该 问题 
过 去 已 经 发 生 过 , 是 由 于 访问 量 上 升 时 ,服务 端 无 法 再 创建 新 的 连接 造 
成 的 。 如 果 该 经 验 没 有 记录 到 文档 或 者 知识 库 中 , 而 人 员 又 不 是 当时 处 
理 故 障 的 人 员 ,， 则 还 需要 花费 资源 进行 诊断 。 一 般 的 大 型 组 织 都 会 建立 
自己 的 知识 库 或 者 文档 库 , 各 种 开源 软件 也 会 有 相应 的 文档 或 者 论坛 在 
互联 网 上 开放 ， 可 以 通过 搜索 引擎 检索 到 软件 相关 的 问题 记录 和 解决 
情况 。 
3.3.2 故障 排除 


故障 排除 通常 有 两 种 做 法 : 变通 解决 和 根本 解决 。 变 通 解决 指 的 是 
当 故 障 造成 了 系统 不 可 用 时 ， 恢复 服务 是 第 一 位 的 ， 如同 医 生 抢救 病人 
一 样 ， 先 救 活 再 说 。 根 本 解决 指 的 是 找到 故障 的 深层 原因 ， 在 源头 上 了 予 
以 解决 。 例 如 , 应 用 程序 的 缺陷 造成 了 程序 运行 了 一 段 时 间 会 崩溃 退出 ， 
此 时 先 将 程序 重新 启动 恢复 服务 , 重启 动作 就 是 变通 解决 , 等 找到 了 程 
序 的 缺陷 ， 通 过 升级 变更 予以 消除 ， 这 就 是 根本 解决 。 

对 于 不 同 种 类 的 故障 也 有 不 同 的 排除 方法 ， 如 表 3-6 所 示 。 








表 3-6 故障 排除 方法 
适应 场景 

软件 或 者 硬件 不 明 原 因 的 故障 ， 通 过 重启 相关 模块 来 恢复 服务 
但 要 注意 的 是 , 复杂 系统 尤其 是 分 布 式 系统 包含 多 台 服 务 器 ,多 
个 应 用 模块 ， 按 照 怎样 的 顺序 重启 ,重启 哪些 模块 也 都 是 需要 注 
意 的 点 

当 访 问 量 激增 时 ， 系 统 会 出 现 卡 顿 , 一些 模块 可 能 会 由 于 资源 耗 
尽 而 无 法 再 服务 ， 可 以 通过 扩充 系统 性 能 来 解决 。 如 果 系 统 是 部 


排除 方法 


重启 服务 








are 署 在 云 上 ， 可 以 通过 云 管理 平台 动态 地 增加 CPU. A, EA 
个 服务 器 等 来 解决 性 能 问题 
当 故 障 造成 了 数据 错误 、 丢 失 、 重 复 的 情况 ， 故 障 的 处 理 就 会 变 
修补 数据 得 异常 麻烦 ， 如 果 数 据 特别 重要 ， 一 定 需 要 修复 ， 则 需要 安排 资 
源 对 数据 进行 逐 笔 核对 ， 识 别 出 错 误 的 地 方 ， 这 个 工作 量 通常 非 
常 大 
升级 变更 如 果 是 硬件 故障 ， 通 过 升级 变更 更 换 硬 件 ; 如 果 是 软件 问题 ， 通 
过 升级 变更 修复 缺陷 
aM. ER 当 系 统 存在 元 余 的 模块 ， 为 了 避免 流量 仍然 导向 到 故障 模块 ， 则 
等 其 他 应 急 可 以 彻底 手工 隔离 故障 模块 ; 一 些 系统 可 能 由 于 自身 结构 原因 ， 
操作 会 有 一 些 常 发 性 故障 ， 例 如 用 户 登 录 状 态 错误 ， 则 可 以 将 重 置 用 
户 登 录 状 态 做 成 一 个 功能 ， 方 便 在 排除 故障 时 使 用 
在 有 了 一 定 故 障 处 理 经 验 和 原则 之 后 ， 对 于 固定 场景 的 故障 ， 可 
自动 化 以 考虑 开发 成 自动 处 理 ， 在 捕获 到 异常 之 后 ， 由 系统 管理 模块 对 
故障 进程 自动 隔离 、 自 动 重启 、 自 动 重 置 、 自 动 扩容 等 
3.4 故障 后 期 管理 


3.4.1 ”建立 和 更 新 知识 库 


在 3.2.1 节 中 已 经 介绍 过 ， 在 发 现 故 障 之 后 ， 需 要 通过 单据 记录 故 
障 的 信息 , 在 故障 的 分 析 和 处 理 过 程 中 , 也 需要 通过 单据 记录 处 理 情况 ， 
保证 运 维 工 作 的 完整 可 跟踪 ， 如 果 是 用 户 反馈 的 问题 ， 还 需要 对 用 户 进 
行 回 访 。 一 般 的 机 构 会 遵循 ITIL 的 事件 和 问题 流程 来 对 故障 进行 管理 。 
故障 处 理 过 程 中 的 单据 是 宝贵 的 经 验 , 是 企业 知识 库 的 一 部 分 信息 来 源 。 

关于 企业 知识 库 的 建立 , 是 因为 运 维 工作 所 需 的 大 量 知识 分 散 保存 
在 文档 管理 系统 或 者 个 人 计算 机 中 ， 需 要 时 查找 不 便 ， 找 到 又 发 现 版 本 
不 统一 ， 甚 至 陈旧 过 时 。 通 过 建设 知识 管理 系统 ， 可 实现 对 大 量 有 价值 
的 案例 、 规 范 、 手 册 、 经 验 等 知识 进行 分 类 存储 和 管理 ， 积 累 知 识 资产 
避免 流失 ; 规范 知识 的 存储 、 分 类 ， 实 现 便捷 高 效 的 查询 ;通过 记录 并 
分 析 使 用 者 的 知识 行为 ， 促 进 知识 的 学 习 、 共 享 、 利 用 和 传承 ， 并 与 现 


有 的 管理 系统 、 流 程 系统 进行 衔接 ， 实 现 不 同系 统 间 知识 的 整合 。 

而 对 于 故障 处 理 的 经 验 ， 除 了 故障 处 理 流程 记录 之 外 ， 也 可 以 针对 一 
些 典型 故障 ， 创 建 或 者 更 新 知识 库 ， 便 于 以 后 重复 利用 ， 减 少 排查 故障 时 
的 工作 量 。 


3.4.2 故障 预防 


对 于 重大 故障 ， 找 到 故障 的 根本 原因 有 助 于 预防 和 消除 同类 故障 。 
海 恩 法 则 是 德国 飞机 涡轮 机 的 发 明 者 德国 人 帕 布 斯 海 恩 提出 的 ， 即 一 
个 在 航空 界 关 于 飞行 安全 的 法 则 。 海 恩 法 则 指出 : 每 一 起 严重 事故 的 背 
后 , 必然 有 29 次 轻微 事故 和 300 起 未 遂 先 兆 以 及 1000 起 事故 隐患 。 法 
则 强调 两 点 : 一 是 事故 的 发 生 是 量 的 积累 的 结果 ; 二 是 再 好 的 技术 ， 再 
完美 的 规章 ， 在 实际 操作 层面 ， 也 无 法 取代 人 自身 的 素质 和 责任 心 。 

海 恩 法 则 多 被 用 于 企业 的 生产 管理 ,特别 是 安全 管理 中 。 海 恩 法 则 
对 企业 来 说 是 一 种 警示 , 它 说 明 任 何 一 起 事故 都 是 有 原因 的 , 并 且 是 有 
征兆 的 ， 它 同时 说 明 安 全 生产 是 可 以 控制 的 ， 安 全 事故 是 可 以 避免 的 ; 
它 也 给 了 企业 管理 者 生产 安全 管理 的 一 种 方法 , 即 发 现 并 控制 征兆 。 具 
体 来 说 ， 利 用 海 恩 法 则 进行 生产 的 安全 管理 主要 步骤 如 下 。 

(1) 首先 任何 生产 过 程 都 要 进行 程序 化 ， 这 样 使 整个 生产 过 程 都 
可 以 进行 考量 ， 这 是 发 现 事故 征兆 的 前 提 。 

(2) 对 每 一 个 程序 都 要 划分 相应 的 责任 , 可 以 找到 相应 的 负责 人 ， 
要 让 他 们 认识 到 安全 生产 的 重要 性 ， 以 及 安全 事故 带 来 的 巨大 危害 性 。 

(3) 根据 生产 程序 的 可 能 性 ， 列 出 每 一 个 程序 可 能 发 生 的 事故 ， 
以 及 发 生 事故 的 先兆 ， 培 养 员 工 对 事故 先兆 的 敏感 性 。 

(4) 在 每 一 个 程序 上 都 要 制定 定期 的 检查 制度 ， 及 早 发 现 事 故 的 
征兆 。 

C5) 在 任何 程序 上 一 旦 发 现 生 产 安全 事故 的 隐患 , 要 及 时 地 报告 ， 
要 及 时 地 排除 。 

(6) 在 生产 过 程 中 ， 即 使 有 一 些小 事故 发 生 ， 可 能 是 避免 不 了 或 
者 经 常 发 生 , 也 应 引起 足够 的 重视 , 要 及 时 排除 。 当事人 即使 不 能 排除 ， 
也 应 该 向 安全 负责 人 报告 ， 以 便 找 出 这 些小 事故 的 隐患 ， 及 时 排除 ， 避 
免 安全 事故 的 发 生 。 

许多 企业 在 对 安全 事故 的 认识 和 态度 上 普遍 存在 一 个 “误区 ” 只 
重视 对 事故 本 身 进行 总 结 ， 甚 至 会 按照 总 结 得 出 的 结论 “有 针对 性 ”地 
开展 安全 大 检查 , 却 往往 忽视 了 对 事故 征兆 和 事故 苗头 进行 排查 ; 而 那 
些 未 被 发 现 的 征兆 与 苗头 ,就 成 为 下 一 次 事故 的 隐患 ， 长此以往， 安全 
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事故 的 发 生 就 呈现 出 “连锁 反应 ”。 一 些 企业 会 发 生 安全 事故 ， 甚 至 重 
特大 安全 事故 接连 发 生 ， 问 题 就 在 于 对 事故 征兆 和 事故 苗头 的 忽视 。 


3.5 ”作业 与 练习 


一 、 问 答题 

1. 从 故障 的 原因 出 发 ， 故 障 可 以 分 为 哪些 种 类 ? 

2. 当 发 生 故障 时 ， 需 要 记录 哪些 相关 信息 ? 

3. 运 维 的 一 线 、 二 线 、 三 线 人 员 的 工作 职责 如 何 划 分 ? 
二 、 判 断 题 

1. 当 故 障 发 生 时 ， 每 次 都 应 该 先 排查 原因 ， 再 解决 问题 。 
2. 所 有 的 故障 都 需要 立即 协调 所 有 资源 进行 处 理 。 

3. 重启 服务 是 解决 软件 故障 的 唯一 办 法 。 

4. 部 分 影响 程度 小 的 故障 可 以 暂缓 处 理 。 
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大 数据 的 利用 需 经 过 大 数据 采集 、 大 数据 清洗 、 大 数据 集成 、 大 数据 
转换 等 环节 ， 再 进入 大 数据 分 析 和 挖掘 阶段 ， 在 这 个 阶段 ， 由 于 涉及 大 量 
的 数据 读 取 和 操作 处 理 ， 其 性 能 的 表现 将 直接 决定 大 数据 应 用 的 实用 性 。 

本 章 以 开源 Hadoop KAGE BABI, MBA BGR ERE SD OT. HHS 
和 优化 的 方法 。 


4.1 性 能 分 析 


性 能 管理 系统 实时 采集 应 用 性 能 数据 ， 并 保存 在 性 能 库 中 ,这 些 数 
据 称 之 为 性 能 因子 ， 诊 断 专 家 可 以 对 比 当前 和 过 去 不 同时 刻 的 性 能 因 
子 ， 分 析 性 能 数据 的 差异 ， 找 到 性 能 问题 的 原因 ， 优 化 系统 性 能 。 

另外 ， 可 以 对 历史 性 能 因子 数据 进行 统计 分 析 ， 能 够 使 用 户 直观 地 
看 到 较 长 时 间 段 内 系统 总 体 应 用 性 能 表现 的 发 展 和 变化 过 程 , 这 些 不 同 
角度 的 性 能 表现 数据 称 之 为 性 能 指标 , 通过 性 能 指标 可 以 对 将 来 的 发 展 
趋势 做 出 判断 和 预测 ， 并 对 将 来 的 系统 扩容 、 新 系统 设备 选 型 等 提供 技 
术 指 标 参考 。 


4.1.1 性 能 因子 


影响 Hadoop 大 数据 作业 性 能 的 因子 有 以 下 几 点 。 
口 Hadoop 配置 : 配置 对 Hadoop 集群 的 性 能 是 非常 重要 的 ; BA 
理 的 配置 会 产生 CPU 负载 、 内 存 交换 、1O 等 的 额外 开销 问题 。 





口 


口 


4.1.2 


文件 大 小 : 特别 大 和 特别 小 的 文件 都 会 影响 Map 任务 的 性 能 。 
Mapper、Reducer 的 数量 : 会 影响 Map、Reduce 的 任务 和 Job 
的 性 能 。 

硬件 : 节点 的 性 能 、 配 置 规划 及 网 络 硬件 的 性 能 会 直接 影响 到 
作业 的 性 能 。 

代码 : 质量 差 的 代码 会 影响 Map/Reduce 性 能 。 

性 能 指标 


Hadoop 作业 常用 性 能 指标 包括 如 下 内 容 。 


口 


口 
口 
口 


口 
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Elapsed time: 作业 的 执行 时 间 。 

Total Allocated Containers: 分 配给 作业 的 执行 容器 数目 。 
Number of maps, Launched map tasks: 作业 发 起 的 Map 任务 数目 。 
Number of reduces, Launched reduce tasks: 作业 发 起 的 Reduce 
任务 数目 。 

Jobstate: 作业 的 执行 状态 ， 如 SUCCEEDED. 

Total time spent by all map tasks (ms): 所 有 的 Map 任务 执行 的 
时 间 。 

Total time spent by all reduce tasks (ms): 所 有 的 Reduce 任务 执 
行 的 时 间 。 

Total vcore-seconds taken by all map tasks: 所 有 的 Map 任务 占 
用 虚拟 核 的 时 间 。 

Total vcore-seconds taken by all reduce tasks: 所 有 的 Reduce 任 
务 占用 虚拟 核 的 时 间 。 

Map input records: Map 任务 输入 的 记录 数目 。 

Map output records: Map 任务 输出 的 记录 数目 。 

Map output bytes: Map 任务 输出 的 字 节 数目 。 

Map output materialized bytes: Map 任务 输出 的 未 经 解压 的 字 
节 数 目 。 

Input split bytes: 输入 文件 的 分 片 大 小 ， 单 位 为 字 节 。 

Combine input records: 合并 的 输入 记录 数目 。 

Combine output records: 合并 的 输出 记录 数目 。 

Reduce input groups: Reduce 任务 的 输入 组 数目 。 

Reduce shuffle bytes: Map 传输 给 Reduce 用 于 shuffle 的 字 节 数 。 
Reduce input records: Reduce 任务 输入 的 记录 数目 。 

Reduce output records: Reduce 任务 输出 的 记录 数目 。 

Spilled Records: iH (Spilled) 的 记录 数目 。 
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Shuffled Maps: Shuffled 的 Map 任务 数目 。 

Failed Shuffles: 失败 的 Shuffle 5t. 

Merged Map outputs: 合并 的 Map 输出 数 。 

GC time elapsed (ms): 通过 JMX 获取 到 执行 Map 与 Reduce 的 
子 JVM 总共 的 GC 时 间 消 耗 。 

CPU time spent (ms): 花费 的 CPU 时 间 。 

Physical memory (bytes) snapshot: 占用 的 物理 内 存 快 照 。 
Virtual memory (bytes) snapshot: 占用 的 虚拟 内 存 快照 。 

Total committed heap usage (bytes): 总 共 占 用 的 JVM 堆 空 间 。 
File: Number of bytes read=446， 文 件 系统 的 读 取 的 字 节 数 。 
File: Number of bytes written， 文 件 系 统 的 写 入 的 字 节 数 。 
File: Number of read operations， 文 件 系统 的 读 操作 的 次 数 。 
File: Number of large read operations， 文 件 系统 的 大 量 读 的 操 
作 次 数 。 

File: Number of write operations， 文 件 系 统 的 写 操作 的 次 数 。 
HDFS: Number of bytes read, HDFS 的 读 取 的 字 节 数 。 

HDFS: Number of bytes written, HDFS 的 写 入 的 字 节 数 。 
HDFS: Number of read operations, HDFS 的 读 操作 的 次 数 。 
HDFS: Number of large read operations, HDFS 的 大 量 读 的 操作 
次 数 。 

HDFS: Number of write operations, HDFS 的 写 操作 的 次 数 。 
File Input Format Counters: Bytes Read. Job 执行 过 程 中 ，Map 
端 从 HDFS 读 取 的 输入 的 split 源 文件 内 容 大 小 ， 不 包括 Map 
的 split 元 数据 ， 如 果 是 压缩 的 文件 则 是 未 经 解压 的 文件 大 小 。 
File Output Format Counters: Bytes Written. Job 执行 完毕 后 把 
结果 写 入 到 HDFS， 该 值 是 结果 文件 的 大 小 ; 如 果 是 压缩 的 文 
件 则 是 未 经 解压 的 文件 大 小 。 

JVM 内 存 使 用 。 

A HAI Heap Memory: 代码 运行 使 用 内 存 。 

A JEAN Non Heap Memory: JVM 自身 运行 使 用 内 存 。 
磁盘 空间 使 用 。 

Configured Capacity: GB， 所 有 的 磁盘 空间 。 

DFS Used: MB， 当 前 HDFS 的 使 用 空间 。 

Non DFS Used: GB， 非 HDFS 所 使 用 的 磁盘 空间 。 

DFS Remaining: GB, HDFS 可 使 用 的 磁盘 空间 。 
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O files and directories: 文件 和 目录 数 。 
O HDFS 文件 信息 。 

回 Size: 大 小 。 

回 Replication: 副本 数 。 

M Block Size: 块 大 小 。 





14.2 ”性 能 监控 工具 


应 用 系统 的 性 能 管理 是 通过 性 能 监控 工具 来 完成 的 。 性 能 监控 工具 
不 但 管理 操作 系统 平台 的 性 能 、 网 络 的 性 能 、 数 据 库 的 性 能 ， 而 且 能 够 
在 事物 一 级 对 企业 系统 进行 监控 和 分 析 ， 指出 系统 瓶颈 , 并且 允许 管理 
员 设 置 各 种 预警 条 件 , 在 资源 还 没有 被 耗 尽 以 前 ,系统 或 管理 员 就 可 以 
采取 一 些 预 防 性 措施 ， 保 证 系统 高 效 运行 ， 增 强 系 统 的 可 用 性 。 

在 Hadoop 应 用 平台 中 内 置 了 性 能 监控 工具 ， 下 面 介绍 Hadoop 的 
内 置 监控 工具 。 

Hadoop 启动 时 会 运行 两 个 服务 器 进程 : 一 个 为 用 于 Hadoop 各 进程 
间 进 行 通信 的 RPC 服务 进程 ; 另 一 个 是 提供 了 便于 管理 员 查 看 Hadoop 
集群 各 进程 相关 信息 页 面 的 http 服务 进程 。 其 中 ， 最 常用 的 是 Hadoop 
的 名 为 NameNode 的 Web 管理 工具 。 


4.2.1 GUI 
通过 浏览 器 查看 Hadoop NameNode 开放 的 50070 端口 ， 可 以 了 解 到 


Hadoop 集群 的 基本 配置 信息 和 监控 到 Hadoop 集群 的 状态 ， 分 别 如 图 4-1 一 
4-4 所 示 。 


€ > C | © 101891750070/dfshealth.html&tab-overview 





Overview master8020' (active) 


Started: Tue Apr 18 11:29:10 CST 2017 

Version: 2.7.1，zrl5eccBTccfda0228f35af08fc56de536e6ce657a 
Compiled: 2015-06-29T06:04Z by jenkins from (detached from 15ecc87) 
Cluster ID: CID-f1814741-d9a2-4d94-8aal-adcff8cdfcc6 

Block Pool ID: BP-1588754380-10. 1. 89. 17-1492486135710 


图 4-1 集群 基本 信息 (1) 
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mp 
Dis 


© 10.1.89.17:50070/dfshealth.html#tab-overview 
Summary 


Security is off. 
Safenode is off. 

1 files and directories, 0 blocks = 1 total filesystem object(s). 

Heap Memory used 271.32 MB of 958.5 MB Heap Memory. Max Heap Memory is 958.5 MB. 


Non Heap Memory used $8.17 MB of 38.94 MB Comnited Non Heap Memory. Max Non Heap Memory is 130 IB. 


Configured Capacity: 29.95 GB 
DFS Used: 24 KB (0%) 

Hon DFS Used: 5.19 GB 

DFS Remaining: 24.22 GB (80.869) 

Block Pool Used: 24 KB (09) 

Dataodes usages% (Min/Median/Max/stdDev) : 0.00% / 0.00% / 0.00% / 0.00% 
Live Hodes 3 (Decomaissioned: 0) 

Dead Hodes © (Decommissioned: 0) 
Decomaissioning Hodes 0 

Total Datanode Volume Failures o (05) 

Humber of Under-Replicated Blocks 0 


图 4-2 集群 基本 信息 (2) 


© 10.1.89.17:50070/dfshealth.htmlétab-overview 


Total Datanode Volume Failures o (o B) 

Wasber of Under-Replicated Blocks 0 

Waber of Blocks Pending Deletion 0 

Block Deletion Start Tine 2017/4/18 11:29:10 


NameNode Journal Status 


Current transaction ID: 5 


Journal Manager State 


FileJournalManager (root®/usr/cstor/hadoop/cloud/dfs/nane) EditLogFileOutputStrean 


NameNode Storage 


Storage Directory Type State 


/usx/cetor /hadoop/cloud/dfs /nane DUGEAN)EDITS Active 


图 4-3 集群 基本 信息 (3) 


8088 端口 是 Hadoop 的 资源 管理 框架 YARN 开放 的 监控 端口 ,通过 
浏览 器 访问 8088 端口 ， 可 以 监控 作业 的 运行 信息 ， 包 括 如 下 方面 。 
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Datanode Information 


In operation 

Node Last contact Adin State Capacity Used Hon DFS Used 
slave2:50010 (10.1. 89. 18:50010) 0 In Service 9.98 GB 8B 1.91 GB 

slavel 50010 (10. 1.71. 16:50010) 0 In Service 9.98 GB 8 王 1.91 GB 

slave3.50010 (10.1. 71.17:50010) 0 In Service 9.98 GB 8 KP 1.91 GB 

Hode Remaining Blocks Block pool used Failed Volunes Version 
slave2:50010 (10.1.89.18:50010) 8.07 GB 0 8 KB (03) 0 271 
slavel:50010 (10.1.71.16:50010) 8.07 GB 0 8 Kb (0X) 0 2.7.1 
slave3:50010 (10.1.71. 17:50010) 8.07 GB 0 8 KP (0X) 0 2.7.1 


图 4-4 集群 基本 信息 (4) 


C1) 运行 了 哪些 作业 ， 每 个 作业 的 类 型 、 执 行 时 间 、 起 始 时 间 、 
结束 时 间 、 当 前 状态 、 最 终 状 态 等 ， 如 图 4-5 所 示 。 





€ > C [O 10.30.100.4:8088/cluster 





All Applications 


Cluster Metrics 


Apps Apps Apps Apps Containers Memory Memory Menory 
Submitted Pending Running Completed Running Used Total Reserved 
lo ^ ^ ^ ^ ^n ^4 mn ^n 
Wores WCores Wores Active Decommissioned Lost Unhealthy Rebooted 
Used Total Reserved Nodes Nodes Nodes Nodes Nodes 
o 24 0 3 o 2 o 9 
Scheduler Metrics 

Scheduler Type Scheduling Resource Type 
Capacity Scheduler [NEWRY] 





| Show 20 v entries 





本 ~ User zc e Application 
s Type J] 


application 1495010639895 0002 root QuasiMonteCarlo MAPREDUCE 


application 1495010639895 0001 root DistributedShell YARN 











Minimum Allocation Maximum Allocation 
<menory:1024, vCores:1> <nenory:8192, vCores:8> | 
Search: | 
^ — StartTime — FinishTime State FinalStatus a Tracking 
Queue > < < s a Progress © U $4 
default Sat Nay 20 Sat May 20 FAILED FAILED [ | History 


16:28:33 16:28:36 
+0800 2017 +0800 2017 

default Sat May 20 Sat May 20 FAILED FAILED | | History 
15:58:06 15:58:11 





+0800 2017 +0800 2017 
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(2) 作业 运行 在 集群 的 哪些 计算 节点 上 。 
如 图 4-6 所 示 为 作业 详细 信息 例子 ,作业 运行 的 节点 如 图 4-7 所 示 ， 
即 运行 在 两 个 data node 节点 上 ， 分 别 是 slavel 和 slave3。 


root 
QuasillonteCarlo 
MAPREDUCE 


FAILED 
FAILED 


2sec 


History 








Diagnostics: 


Sat May 20 16:28:33 +0800 2017 


Application application 1495010639895 0002 failed 2 times 


图 4-6 作业 详细 信息 例子 


Total Resource Preempted: 

Total Number of Non-AM Containers Preempted: 

Total Number of AM Containers Preempted: 

Resource Preempted from Current Attempt: 

Number of Non-AM Containers Preempted from Current Attempt: 
Aggregate Resource Allocation: 


Application Metrics 
memory:0, vCores:0> 
0 
0 
<memory:0, vCores:0> 
0 
4130 MB-seconds, 2 vcore-seconds 


Show 20 v entries Search: 

. Attempt ID Started s Node e 

appattempt 1495010639895 0002 000002 Sat May 20 16:28:35 +0800  http://slave3:8012 Logs 
2017 

annattemnt 1495010539805 0002 000001 Sat May 20 16:28:33 -0800 — httn://slavel:8042 Logs 
207 


Showing 1 to 2 of 2 entries 
图 4-7 作业 运行 节点 


(3) HDFS 文件 信息 ,包括 Size. Replication, Block Size， 如 图 4-8 
所 示 。 


Browse Directory 


/user/root/QuasiMonteCarlo 1496131133155 811889410/in 


Permission Owner Group Size Last Modified 
-rwer—r— root supergroup 118 B 2017/5/30 下 午 3:58:55 
-rwr—r— root supergroup 118 B 2017/5/30 下 午 3:58:55 
Replication Bloc Size Hane 

3 128 MB part0 

3 128 MB part! 


4-8 HDFS 信息 
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4.2.2 集群 CLI 


通过 YARN、mapred 等 CLI 工具 ， 也 可 监控 作业 的 运行 。 如 下 所 
示 为 其 中 一 些 操作 。 
以 下 命令 列 出 当前 运行 的 作业 应 用 : 


[root@master ~]# yarn application -list 

17/05/28 21:20:04 INFO client.RMProxy: Connecting to ResourceManager at 
master/10.30.248.5:8032 

17/05/28 21:20:05 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 

Total number of applications (application-types: [] and states: [SUBMITTED, 
ACCEPTED, RUNNING]):1 

Application-Id — Application-Name — Application- Type User Queue 
application 1495286256909 0005 QuasiMonteCarlo | MAPREDUCE 
root default State Final-State Progress — Tracking-URL 

ACCEPTED UNDEFINED 096 


以 下 是 YARN CLI 的 所 有 命令 用 法 : 


[root@master ~]# yarn application -help 

17/05/28 14:38:24 INFO client. RMProxy: Connecting to ResourceManager at 

master/10.30.248.5:8032 

17/05/28 14:38:24 WARN util.NativeCodeLoader: Unable to load native-hadoop 

library for your platform... using builtin-java classes where applicable 

usage: application 

-appStates «States» Works with -list to filter applications 

based on input comma-separated list of 
application states. The valid application 
state can be one of the following: 
ALL,NEW,NEW SAVING,SUBMITTED, 


ACCEPTED,RUN 

NING,FINISHED,FAILED,KILLED 

-appTypes <Types> Works with -list to filter applications 
based on input comma-separated list of 
application types. 

-help Displays help for all commands. 

-kill «Application ID» Kills the application. 

-list List applications. Supports optional use 


of -appTypes to filter applications based 
on application type, and -appStates to 
filter applications based on application 
state. 

-movetoqueue «Application ID» Moves the application to a different 


queue. 


-queue «Queue Name> Works with the movetoqueue command to 
specify which queue to move an 
application to. 

-status «Application ID» Prints the status of the application. 


以 下 命令 列 出 当前 运行 的 作业 : 


[root@master ~]# mapred job -list 
17/05/28 21:21:45 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 
17/05/28 21:21:45 INFO client.RMProxy: Connecting to ResourceManager at 
master/10.30.248.5:8032 
Total jobs:1 

Jobld State StartTime UserName 
Queue Priority UsedContainers RsvdContainers UsedMem 
RsvdMem NeededMem AM info 


job 1495286256909 0007 PREP 1495977705884 
root default NORMAL 1 0 
2048M OM 2048M 


http://master:8088/proxy/application_1495286256909_0007/ 


以 下 命令 列 出 之 前 运行 的 所 有 历史 作业 : 


[root@master hadoop]# mapred job -list all 
17/06/04 19:19:32 INFO client.RMProxy: Connecting to ResourceManager at 
master/10.30.248.5:8032 
Total jobs:23 
Jobld State StartTime UserName 

Queue Priority UsedContainers RsvdContainers UsedMem 
RsvdMem NeededMem AM info 
job. 1495286256909 0016 SUCCEEDED 1496117359080 
root default NORMAL N/A N/A 
N/A N/A N/A 

http://master:8088/proxy/application 1495286256909 0016/ 
job 1495286256909 0017 SUCCEEDED 1496117407162 


root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0017/ 
job 1495286256909 0003 FAILED 1495977187836 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://master:8088/cluster/app/application 1495286256909 0003 
job 1495286256909 0018 SUCCEEDED 1496131137273 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://(master:8088/proxy/application 1495286256909 0018/ 


job 1495286256909 0024 SUCCEEDED 1496147508903 


root 
N/A 


default NORMAL N/A N/A 
N/A N/A 
http://master:8088/proxy/application 1495286256909 0024/ 


job 1495286256909 0019 SUCCEEDED 1496132683157 


root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0019/ 
job 1495286256909 0004 FAILED 1495977501707 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://master:8088/cluster/app/application 1495286256909 0004 


job. 1495286256909 0026 SUCCEEDED 1496147979186 


root 
N/A 


default NORMAL N/A N/A 
N/A N/A 
http://master:8088/proxy/application 1495286256909 0026/ 


job. 1495286256909 0025 SUCCEEDED 1496147583292 


root 
N/A 


default NORMAL N/A N/A 
N/A N/A 
http://master:8088/proxy/application 1495286256909 0025/ 


job. 1495286256909 0020 SUCCEEDED 1496133886994 


root 
N/A 


default NORMAL N/A N/A 
N/A N/A 
http://master:8088/proxy/application 1495286256909 0020/ 


job. 1495286256909 0013 SUCCEEDED 1496116698854 


root 
N/A 


default NORMAL N/A N/A 
N/A N/A 
http://master:8088/proxy/application 1495286256909 0013/ 


job 1495286256909 0022 SUCCEEDED 1496135014648 


root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0022/ 
job. 1495286256909 0001 FAILED 1495289772229 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://master:8088/cluster/app/application 1495286256909 0001 


job 1495286256909 0023 SUCCEEDED 1496135396583 


root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0023/ 
job 1495286256909 0002 FAILED 1495977099368 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://master:8088/cluster/app/application 1495286256909 0002 


job 1495286256909 0009 FAILED 1495978822879 


root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/cluster/app/application 1495286256909 0009 
job 1495286256909 0005 FAILED 1495977603257 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://master:8088/cluster/app/application 1495286256909 0005 
job. 1495286256909 0021 SUCCEEDED 1496134059337 
root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0021/ 
job 1495286256909 0015 SUCCEEDED 1496117239013 


root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0015/ 
job 1495286256909 0008 FAILED 1495978610808 
root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/cluster/app/application 1495286256909 0008 
job 1495286256909 0006 FAILED 1495977687881 
root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/cluster/app/application 1495286256909 0006 
job. 1495286256909 0007 FAILED 1495977705884 
root default NORMAL N/A N/A 
N/A N/A N/A 


http://master:8088/cluster/app/application 1495286256909 0007 
job. 1495286256909 0014 SUCCEEDED 1496117184317 
root default NORMAL N/A N/A 
N/A N/A N/A 
http://master:8088/proxy/application 1495286256909 0014/ 


以 下 命令 列 出 运行 的 队列 : 


[root@master ~]# mapred queue -list 

17/05/28 21:33:00 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 

17/05/28 21:33:00 INFO client. RMProxy: Connecting to ResourceManager at 
master/10.30.248.5:8032 





Queue Name : default 

Queue State : running 

Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 
0.0 


以 下 命令 列 出 作业 队列 运行 的 作业 : 


[root@master ~}# mapred queue -info default -showJobs 
17/05/28 21:36:50 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 
17/05/28 21:36:50 INFO client.RMProxy: Connecting to ResourceManager at 
master/10 






Queue Name : default 

Queue State : running 

Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 
12.5 


Total jobs:1 

Jobld State StartTime UserName 
Queue Priority UsedContainers RsvdContainers UsedMem 
RsvdMem NeededMem AM info 
job_1495286256909_0008 PREP 1495978610808 
root default NORMAL 1 0 
2048M 0M 2048M 


http://master:8088/proxy/application 1495286256909 0008/ 


以 下 是 mapred job CLI 的 所 有 命令 用 法 : 


[root master hadoop]£ mapred job -help 
Usage: CLI <command> <args> 

[-submit <job-file>] 

[-status <job-id>] 

[-counter <job-id> <group-name> <counter-name>] 

[-kill <job-id>] 

[-set-priority <job-id> <priority>]. Valid values for priorities are: 
VERY_HIGH HIGH NORMAL LOW VERY_LOW 

[-events <job-id> <from-event-#> <#-of-events>] 

[-history <jobHistoryFile>] 

[Hist [all] 

[list-active-trackers] 

[-list-blacklisted-trackers] 

[-list-attempt-ids <job-id> <task-type> <task-state>]. Valid values for <task- 
type» are REDUCE MAP. Valid values for <task-state> are running, completed 

[-kill-task <task-attempt-id>] 

[-fail-task <task-attempt-id>] 

[-logs <job-id> <task-attempt-id>] 


Generic options supported are 

-conf <configuration file> specify an application configuration file 
-D <property=value> use value for given property 

-fs <local|namenode:port> specify a namenode 





-jt <local|resourcemanager:port> specify a ResourceManager 

-files «comma separated list of files specify comma separated files to be 
copied to the map reduce cluster 

-libjars «comma separated list of jars specify comma separated jar files to 
include in the classpath. 

-archives «comma separated list of archives specify comma separated 
archives to be unarchived on the compute machines. 


The general command line syntax is 
bin/hadoop command [genericOptions] [commandOptions] 


4.2.3 ”操作 系统 自 带 工具 


通过 操作 系统 自 带 的 工具 ， 如 vmstat， 可 以 监控 到 节点 的 物理 运行 
性 能 。vmstat 可 以 监控 每 个 节点 的 资源 占用 信息 , 下 面 以 一 个 例子 说 明 。 


1. master 节点 
运行 以 下 命令 时 : 


[root@master usr]# vmstat 

procs ---------- -memory--------—- -—: SWap-- -----io---- -system-- ------cpu----- 

rb swpd free buff cache si so bi bo in cs us sy id wa st 
0 0 1988020 97168624 1064 27340588 1 1 11.6 00 1 O0 
99 0 0 


以 下 列 出 该 命令 显示 信息 的 简要 含义 ， 更 详细 的 说 明 请 参见 相关 
Linux 手册 。 
(1) Procs 
O r: 等 待 运行 的 进程 数 。 
Ch b: 不 可 中 断 的 睡眠 的 进程 数 。 
(2) Memory 
swpd: 已 使 用 的 虚拟 内 存 空 间 。 
free: 空闲 的 内 存 空间 。 
buff: 作为 数据 预存 缓冲 使 用 的 内 存 空间 。 
cache: 作为 高 速 缓存 使 用 的 内 存 空 间 。 
inact: 非 活动 的 内 存 空间 。 
active: 活动 的 内 存 空间 。 
(3) Swap 
O si: 从 磁盘 交换 进 内 存 的 空间 。 
O so: 从 内 存 交换 到 磁盘 的 空间 。 
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(4) IO 

O bi: 从 块 设备 读 取 到 的 块 数 。 

口 bo: 写 入 块 设备 的 块 数 。 

(5) System 

O in: 每 秒 的 中 断 数 ， 包 括 时 钟 。 

口 cs: 每 秒 的 上 下 文 切换 数 。 

(6) CPU 

显示 进程 在 各 个 运行 模式 或 状态 下 占用 CPU 时 间 的 百分比 。 
O us: 非 内 核 运行 模式 〈 用 户 进程 ) 的 时 间 。 
O sy: 内 核 运行 模式 〈 系 统 进程 ) 的 时 间 。 
口 id: 空间 时 间 。 

口 wa: 等 待 IO 的 时 间 。 

O st: 从 虚拟 机 借用 的 时 间 。 

以 下 命令 可 以 查看 磁盘 使 用 的 信息 : 


[root@master bin]# vmstat -D 
44 disks 
4 partitions 
1309263366 total reads 
21466414 merged reads 
12980501745 read sectors 
242899741 milli reading 
262394856 writes 
26304046 merged writes 
5678483280 written sectors 
1425544409 milli writing 
0 inprogress IO 
68490 milli spent IO 
[root@master bin]# vmstat -d 








disk- -一 -reads------------ ----- ‘writes----------- -----| 1O------ 
total merged sectors ms total merged sectors ms cur sec 
sda 4680033 20450216 202107883 3371128 79620693 23466914 1758586520 
85952641 0 4850 
sdb 140 0 1984 116 0 0 0 0 0 0 
sdc 140 0 1984 118 0 0 0 0 0 0 
sdd 216003331 462970 2024587100 48544285 10861567 1456848 
273478952 9456321 0 16129 
sde 206058485 553377 1925019513 47347292 9501443 1380314 262258800 
9320387 0 14874 
dm-0 7973 0 778225 6856 78433741 0 1510997920 55328096 0 


3590 

dm-1 25164149 0 201314304 18156190 30352289 0 242818312 
1130208576 0 1295 

md127 423088745 03949601453 0 19341824 0535737752 0 0 0 
dm-4 142 0 2145 17 4741 04766192 730661 0 6 

dm-2 413400935 0 3307207504 90006790 7398128 0 34459408 
1522545 0 22896 

dm-3 9660245 0 642171597 17392804 11943647 0 501278056 
65189790 (0 2174 

dm-5 9660245 0 642171597 17411843 11943647 0 501278056 
65205794 0 2212 

dm-14 129 0 12225 69 15 0 4280 31 0 0 

dm-15 371 0 33249 193 174005 02786056 2833 0 2 
dm-24 129 0 12225 83 15 0 4280 30 0 0 

dm-25 45019 02678377 211501124064 013337072 792190 0 59 
dm-26 129 0 12225 67 15 0 4280 30 0 0 

dm-27 40722 01792313 13364528736 07362184 217062 0 45 


dm-16 129 0 12225 78 15 0 4280 31 0 0 
dm-17 420 0 32377 180 326 0 5720 835 0 0 
dm-8 129 0 12225 59 15 0 4280 31 0 0 
dm-9 411 0 32169 158 74 0 5728 620 0 0 
dm-10 129 0 12225 82 15 0 4280 23 0 0 


dm-11 163836 010081137 75930305365 04044896 309450 0 52 
dm-12 129 0 12225 66 15 0 4280 28 0 0 
dm-13 85485 04537545 36006329047 04141328 571509 0 36 
dm-22 129 0 12225 68 15 0 4280 30 0 0 
dm-23 1207543 0 65765313 513690 478199 0 16361904 372685 
0 26 
dm-36 129 0 12225 63 15 0 4280 32 0 0 
dm-37 417 © 32337 183 76 0 5720 887 0 0 
disk- ---------- --feadS------------ ------------ writes----------- ----- 1O------ 

total merged sectors ms total merged sectors ms cur sec 
dm-20 129 0 12225 70 15 0 4280 30 0 O 
dm-21 5101 0 233945 1685 54675 04705800 357262 0 8 
dm-32 129 0 12225 80 15 0 4280 37 0 0 
dm-33 573 0 40289 211 197 0 8544 915 0 0 
dm-6 129 0 12225 60 15 0 4280 2 Q0 0 
dm-7 485 0 42673 218 75 0 5792 679 0 0 


dm-34 129 0 12225 62 15 0 4280 25 0 0 
dm-35 596 0 48001 244 218 0 28712 1000 0 0 
dm-18 129 0 12225 57 15 0 4280 26 0 0 
dm-19 480 0 42593 203 76 0 5792 640 0 0 
dm-30 129 0 12225 91 15 0 4280 30 0 0 
dm-31 488 0 42769 219 327 0 5776 1072 0 0 
dm-38 129 0 12225 73 15 0 4280 30 0 0 
dm-39 412 0 32200 161 74 0 $578 579 0 0 





以 下 列 出 该 命令 显示 信息 的 简要 含义 ， 更 详细 的 说 明 请 参见 相关 
Linux 手册 。 
最 左 侧 的 disk 表示 当前 大 数据 节点 配置 的 所 有 硬盘 。 
(1) Reads 
O total: 完成 的 读 操作 。 
口 merged: 合并 的 读 操作 。 
O sectors: 读 取 的 扇 区 。 
O ms: 读 操作 所 花 时 间 ， 毫 秒 。 
(2) Writes 
口 total: 完成 的 写 操作 。 
Q merged: 合并 的 写 操作 。 
Q sectors: S AB X 。 
Q ms: 写 操作 所 花 时 间 ， 毫 秒 。 
(3) VO 
O cur: 当前 正 处 理 的 DO. 
O s: VO 所 花 时 间 ， 秒 。 








2. slave 节点 

在 执行 job 时 : 

[root@slave1 -]£ vmstat -a -w 2 

procs memory------------- —--swap-- -----io---- -system-- --------cpu-------- 
nob swpd free inact active si so bi bo 
in cs us sy id wa st 

4 0 2607948 118955864 4452720 6621560 1 1 10 6 
0 0 © 0 100 0 0 


0 1 2795684 118949456 4687572 6396768 48 93930 11056 99522 
17027 12201 3 1 96 0 0 

2 0 2831936 118946792 4684256 6401168 286 18378 39770 24424 
16003 14718 2 1 96 1 0 
LO (截取 部 分 信息 ) 


其 中 各 项 参数 含义 如 下 。 

O us, sy, id: 显示 CPU 占用 信息 。 

OQ nb: 显示 运行 队列 、 等 待 的 进程 ， 配合 前 者 ， 可 反映 CPU 繁 
忙 程度 。 

O bi, bo: 显示 VO 操作 信息 。 

O swpd、free: 显示 内 存 使 用 信息 。 


以 下 命令 显示 磁盘 的 性 能 。 


[root@slave1 ~]# vmstat -D 
42 disks 
4 partitions 
1159189075 total reads 
27172362 merged reads 
11520915563 read sectors 
241207425 milli reading 
193399497 writes 
33697867 merged writes 
5793502568 written sectors 
1552796101 milli writing 
0 inprogress IO 
58768 milli spent IO 


[root@slave1 ~]# vmstat -d 


disk- ------------ Teads------------ ------------ writes----------- ----- 10- 一 一 

total merged sectors ms total merged sectors ms cur sec 
sda 6925472 26182950 265808659 4499990 34445958 30510766 
1840069200 55649565 0 4909 
sdb 201 0 2472 171 DO OA OO O 
sdc 201 0 2472 138 07 0 0 0 0 0 
XD (截取 部 分 信息 ) 


3. client 节点 


[root@client usr]# vmstat -s 
131747136 K total memory 
8538372 K used memory 
26850328 K active memory 
35266816 K inactive memory 
66413080 K free memory 
1444 K buffer memory 
56794236 K swap cache 
4194300 K total swap 
2788280 K used swap 
1406020 K free swap 
63686685 non-nice user cpu ticks 
48440 nice user cpu ticks 
22287715 system cpu ticks 
19107689693 idle cpu ticks 
3439759 IO-wait cpu ticks 


0 IRQ cpu ticks 
398253 softirq cpu ticks 
0 stolen cpu ticks 
1650289921 pages paged in 
791596852 pages paged out 
18030185 pages swapped in 
25625015 pages swapped out 
3316377356 interrupts 
3486926490 CPU context switches 
1491979402 boot time 
5934052 forks 


4. vmstat 命令 
以 下 是 vmstat 的 所 有 命令 用 法 。 


[root@client usr}# vmstat -help] 


Usage: 
vmstat [options] [delay [count]] 


Options: 
-a, --active active/inactive memory 
-f, --forks number of forks since boot 
-m, -slabs slabinfo 
-n, --one-header do not redisplay header 
-S, --stats event counter statistics 
-d, --disk disk statistics 
-D, --disk-sum summarize disk statistics 
-p, --partition <dev> partition specific statistics 
-S, --unit <char> define display unit 
-w, --wide wide output 
-t, --timestamp show timestamp 


-h, --help display this help and exit 
-V, -version output version information and exit 


For more details see vmstat(8). 


更 详细 的 命令 用 法 解释 请 参见 相关 的 Linux 手册 。 

操作 系统 自 带 其 他 监控 工具 根据 版 本 不 同 ， 还 可 包括 stat. sar. top. 
time, ps. ipcs. iostat. mpstat, pidstat, netstat 等 ， 请 参考 相关 的 Linux 
手册 。 


4.2.4 Ganglia 


Ganglia 是 UC Berkeley 发 起 的 一 个 开源 监控 项 目 ， 可 用 于 监控 数 
以 千 计 的 节点 的 运行 。 

Ganglia 底层 使 用 RRDTool 获得 数据 ，Ganglia 主要 分 为 两 个 进程 
组 件 : 

口 gmond (ganglia monitor deamon). 

口 gmetad (ganglia metadata deamon). 

其 中 ，gmond 运行 在 集群 每 个 节点 上 ， 收 集 RRDTool 产生 的 数据 ; 
gmetad 运行 在 监控 服务 器 上 ， 收 集 每 个 gmond 的 数据 。Ganglia 还 提供 
了 一 个 PHP 实现 的 web front end, 一般 使 用 Apache2 作为 其 运行 环境 ， 
通过 Web Front 可 以 看 到 直观 的 各 种 集群 数据 图 表 。 

Ganglia 的 层次 化 结构 做 得 非常 好 ， 由 小 到 大 可 以 分 为 node 一 cluster 一 
grid 这 3 个 层次 。 

O 一 个 node 就 是 一 个 需要 监控 的 节点 ， 一 般 是 个 主机 ， 用 IP 表 

示 。 每 个 node 上 运行 一 个 gmond 进程 用 来 采集 数据 ， 并 提交 
给 gmetad. 

口 一 个 cluster 由 多 个 node 组 成 ， 就 是 一 个 集群 ， 可 以 给 集群 定 
义 名 字 。 一 个 集群 可 以 选 一 个 node 运行 gmetad 进程 ， 汇 总 / 
拉 取 gmond 提交 的 数据 ， 并 部 署 web front， 将 gmetad 采集 的 
数据 用 图 表 展 示 出 来 。 

O “一 个 grid 由 多 个 cluster 组 成 ， 是 一 个 更 高 层面 的 概念 ， 此 外 ， 

还 可 以 给 grid 定义 名 字 。grid 中 可 以 定义 一 个 顶级 的 gmetad 
进程 , 汇总 / 拉 取 多 个 gmond, F gmetad 提交 的 数据 , 部 署 web 
front， 将 顶级 gmetad 采集 的 数据 用 图 表 展 示 出 来 。 

Ganglia 工作 原理 如 图 4-9 和 图 4-10 所 示 ， 每 个 被 检测 的 节点 或 集 
群 运行 一 个 gmond 进程 ， 进 行 监 控 数 据 的 收集 、 汇 总 和 发 送 。gmond 
既 可 以 作为 发 送 者 (收集 本 机 数据 )， 也 可 以 作为 接收 者 (汇总 多 个 节 
点 的 数据 )。 通常 在 整个 监控 体系 中 只 有 一 个 gmetad 进程 。 该 进程 定期 
检查 所 有 的 gmonds， 主 动 收集 数据 ， 并 存储 在 RRD 存储 引擎 中 。 
ganglia-web 是 使 用 PHP 编写 的 Web 界面 ， 以 图 表 的 方式 展现 存储 在 
RRD 中 的 数据 。 通 常 与 gmetad 进程 运行 在 一 起 。 

Ganglia 可 监控 各 种 指标 ， 包 括 内 存 、CPU、LIO、 网 络 、 进 程 等 ， 
其 监控 页 面 示意 图 分 别 如 图 4-11 和 图 4-12 所 示 。 


106 大 数据 系统 运 维 一 。 
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Æ 4-9 Ganglia 工作 原理 (1) 
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图 4-10 Ganglia 工作 原理 (2) 
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0,0+ 


Total Running Processes 


| 





08:50 09:00 09:10 09:20 09:30 08:40 
Bi szq-yjz-bigdata-01 last hour Now: 2.00 Min: 0.00 
Avg: 523.93m Max: 4.00 





B szq-yjz-bi 
Avg: 843.15 


42.5 ”其 他 监控 工具 


Total Processes 


09:00 09:10 09:20 09:30 09:40 
gdata-01 last hour Now: 844.00 Min: 837.00 
Max: 844.00 


图 4-12 Ganglia 监控 画面 (2) 


其 他 常用 监控 工具 还 有 DrElephant、nagios、eBay Eagle 等 。 如 图 4-13 
所 示 为 DrElephant 的 监控 画面 ， 非 常 直观 地 显示 了 内 存 性 能 问题 ， 并 


给 出 了 内 存 优化 建议 ， 


也 是 个 非常 实用 的 工具 。 


Topics 


SPARK 

Spark Configuration Best Practice 
Spark Event Log Limit. 

Spark Executor Load Balance 
Spark Job Runtime 

Spark Memory Limit 

Spark Stage Runtime 


MAPREDUCE 
Exception 

Mapper Data Skew. 
Mapper GC 
Mapper Memory 
Mapper Speed 
Mapper Spill 
Mapper Timo 
Reducer Data Skew 
Reducer GC 
Reducer Memory 
Reducer Time 
Shuffle & Sort 


No Data Received 
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Mapper Memory 


Tha analys shows the task memory utitzation 

We check the ratio between your task s consumed memory AND the requested container memory. 

The consumed memory is the average of each task s max consumed physical memory snapshot] 

The requested container memory is he "mapreduce map/reduce memory mb* config for this job, which is the max physical 
memory the job can request. 

Y this heuristic is above MODERATE. it means your used memory is relatively low compared with the requested max memory, 


Example 
Mapper Memory 
Seventy: Critical 
Number of tasis "00 
‘vg Physica Memory} S12 
Requested Cortairter Memory 40. 


Suggestions 


The problem indicates you requested large task memory (set mapreduce maplor reduce).memory.mb > 2048), but he task 
average used physical memory is ow. 

You should try to decrease mapreduce.mapíor reduce). memory.mb. 

1 you get OutOMemnory error, think about why such eror happens betore increase the memory back agan 

For example, see / there is any mapperíreducer input data skew (some task processes larger input than others) 

This is a new heuristic. We are stil working on that. Any feedback to hadoop-dev is welcomed! 

Examples on how io set the parameter: 


图 4-13 DrElephant 的 监控 画面 


4.3.1 Hadoop 集群 配置 规划 优化 


1. Hadoop 硬件 配置 规划 优化 
QO MR: 节点 平均 分 布 在 机 架 之 间 ， 可 以 提高 读 操作 性 能 ， 并 提 
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高 数据 可 用 性 ; 节点 副本 存储 在 同一 机 架 , 可 提高 写 操作 性 能 。 
Hadoop 默认 是 存储 3 份 副 本 ， 其 中 两 份 存储 在 同一 机 架 上 ， 
另 一 份 在 另 一 机 架 上 。 
口 主机 : Master 机 器 配置 高 于 Slave 机 器 配置 。 
口 磁盘 : 存放 数据 做 计算 的 磁盘 可 以 做 RAID 0， 或 考虑 元 余 保 
护 需 要 做 RAID 0+1， 提 高 磁盘 VO HITE. 
由 于 磁盘 IO 的 速度 是 比较 慢 的 ， 如 果 一 个 进程 的 内 存 空间 不 足 ， 
它 会 将 内 存 中 的 部 分 数据 暂时 写 到 磁盘 ， 当 需要 时 ， 再 把 磁盘 上 面 的 数 
据 写 到 内 存 上 面 。 因 此 可 以 设置 合理 的 预 读 缓冲 区 大 小 来 提高 Hadoop 
里 面 大 文件 顺序 读 的 性 能 ， 以 此 来 提高 VO 性 能 。 
O WE: 多 网 卡 绑 定 ， 做 负载 均衡 或 者 主 备 元 余 保护 。 


2. 操作 系统 规划 优化 


以 下 合理 规划 对 文件 系统 的 性 能 提升 会 有 较 大 帮助 。 
Cache mode, I/O scheduler、 调 度 参数 、 文 件 块 大 小 、inode 大 小 、 
日 志 功能 、 文 件 时 间 戳 方式、 同步 或 异步 TO、writeback 模式 等 规划 。 


3. Hadoop 集群 配置 规划 优化 


(1) 集群 节点 内 存 分 配 

例如 ， 一 个 数据 节点 ， 假 如 task 并 行 度 为 p， 单 个 任务 内 存 开销 为 
m G， 则 节点 内 存 配置 : 

mx4 (DataNode)+mx2 (NodeManager)+ mx4 (ZooKeeper)* mxp 

例子 : 并 行 度 为 8， 单 任务 内 存 开销 为 1GB， 则 节点 内 存 可 配置 为 
18GB. 

(2) 集群 节点 规模 

假如 每 天 产生 的 大 数据 容量 为 CTB， 需 保存 1 个 月 ， 每 个 节点 硬盘 
容量 hTB, Hadoop 数据 副本 数 为 k (通常 为 3), 硬盘 最 佳 利用 率 R( 常 
取 70%)， 则 配置 的 节点 数 n 可 计算 如 下 : 

n-dxkxtx30/h/R 

例子 : 如 果 每 天 产生 的 大 数据 容量 为 ITB， 需 保存 1 个 月 ， 每 个 节 
点 硬盘 容量 2TB，Hadoop 数据 副本 数 为 3， 硬盘 最 佳 利用 率 7096, 
则 节点 数 n 计算 如 下 : 

n=1x3x1x30/2/70%， 约 为 65 


4.3.2. Hadoop 性 能 优化 


下 面 介绍 Hadoop 层面 的 性 能 优化 措施 。 


1. 内 存 优化 


(1) NameNode、DataNode 内 存 调 整 
在 SHADOOP HOME/etc/hadoop/hadoop-env.sh 配置 文件 中 ， 设 置 
NameNode、DataNode 的 守护 进程 内 存 分 配 可 参照 如 下 方案 : 
export 
HADOOP_NAMENODE_OPTS="-Xmx512m-Xms512m -Dhadoop.security logg 


er=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HD 
FS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS" 


即将 内 存 分 配 设置 成 512MB。 


DataNode: 
export HADOOP_DATANODE_OPTS="-Xmx256m -Xms256m -Dhadoop.securi 
ty.logger-ERROR,RFAS $HADOOP DATANODE OPTS" 


即将 内 存 分 配 设置 成 256MB。 
YER: -Xmx、-Xms 这 两 个 参数 保持 相等 可 以 防止 JVM 在 每 次 垃 
圾 回收 完成 后 重新 分 配 内 存 。 
(2) ResourceManager、NodeManager 内 存 调整 
在 SHADOOP_HOME/etc/hadoop/yarn-env.sh 配置 文件 中 , 设置 内 存 
分 配 如 下 ， 可 以 修改 其 中 内 存 设置 值 : 
ResourceManager: 


export YARN_RESOURCEMANAGER_HEAPSIZE=1000 
export YARN_RESOURCEMANAGER_OPTS="" 


即将 内 存 分 配 设置 成 1000MB。 


NodeManager: 
export YARN_NODEMANAGER_HEAPSIZE=1000 
export YARN_NODEMANAGER_OPTS="" 


即将 内 存 分 配 设置 成 1000MB。 
(3) Task、Job 内 存 调整 
TESHADOOP HOME/etc/hadoop/yarn-site.xml 文件 中 配置 : 


yarn.scheduler.minimum-allocation-mb/ 
yarn.scheduler.maximum-allocation-mb 


其 中 设置 了 单个 可 申请 的 最 小 /最 大 内 存量 。 默 认 值 为 1024MB/8192MB。 


yarn.nodemanager.resource.memory-mb : 





总 的 可 用 物理 内 存量 ， 默 认 值 为 8096MB。 
对 于 MapReduce 而 言 ， 每 个 作业 的 内 存量 可 通过 以 下 参数 设置 : 


mapreduce.map.memory.mb: 


设置 物理 内 存量 ， 默 认 值 为 1024MB。 
2. 配置 多 个 MapReduce 工作 目录 ， 提 高 VO 性 能 
在 以 下 配置 文件 中 设置 相关 参数 ， 达 到 分 散 VO、 提高 VO 性 能 的 目的 。 


SHADOOP_HOME/etc/hadoop/yarn-site.xml: 


yarn.nodemanager.local-dirs: 存放 中 间 结 果 。 
yarn.nodemanager.log-dirs: 存放 日 志 。 


$HADOOP HOME/etc/hadoop/mapred-site.xml : 


mapreduce.cluster.local.dir: MapReduce 的 缓存 数据 存储 在 文件 系统 
中 的 位 置 。 

$HADOOP HOME/etc/hadoop/hdfs-site.xml: 提供 多 个 备份 以 提高 
可 用 性 。 

dfs.namenode.name.dir: HDFS 格式 化 namenode 时 生成 的 nametable 
元 文件 的 存储 目录 。 

dfs.namenode.edits.dir: HDFS 格式 化 namenode 时 生成 的 edits 元 文 
件 的 存储 目录 。 

dfs.datanode.data.dir: 存放 数据 块 (dateblock) 的 目录 。 

多 个 目录 之 间 以 “, ”分 开 ， 如 : 


/data1/dfs/name,/data2/dfs/name, /data3/dfs/name 
3. 压缩 MapReduce 中 间 结 果 ， 提 高 VO 性 能 


由 于 HDFS 存储 有 多 个 副本 , 为 避免 大 量 硬盘 IO 或 网 络 传输 的 开 
销 ， 可 以 压缩 MapReduce 中 间 结 果 ， 提 高 性 能 。 
配置 SHADOOP_ HOME/etc/hadoop/mapred-site.xml 文件 : 


<property> 

<name>mapreduce.map.output.compress</name> 
<value>true</value> 

</property> 

<property> 
<name>mapreduce.map.output.compress.codec</name> 
<value>org.apache.hadoop.io.compress.SnappyCodec</value> 
</property> 
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其 中 ， mapreduce.map.output.compress.codec 指定 压缩 算法 。 

根据 性 能 提高 目标 ， 选 择 压缩 算法 。 

口 希望 提高 CPU 的 处 理性 能 ， 可 以 更 换 速 度 快 的 压缩 算法 ， 如 
Snappy。 

O 希望 提高 磁盘 的 UO 性能， 可 以 更 换 压缩 力度 大 的 压缩 算法 ， 
如 Bzip2。 

口 希望 提高 均衡 性 能 ， 可 使 用 LZO、Gzip 压缩 。 

表 4-1 列 出 了 各 压缩 技术 的 对 比 结果 。 


表 4-1 压缩 技术 比较 


Hadoop | Linux | 次 成 压缩 格式 后 , 原 
压缩 格式 | split | native | 压缩 率 | 速度 | “oP | -wx | 来 的 应 用 程序 是 否 
Bw | 命令 ipis 


Gzip f 是 | 很 高 


需要 建 索 引 , 还 需要 
LZO 是 是 welan | 指定 输入 格式 


Snappy | £8 是 | 比较 高 需要 修改 


Bzip2 是 否 | 最 高 














需要 修改 
4. 调整 虚拟 CPU 个 数 


yarn.scheduler.minimum-allocation-vcores / 
yarn.scheduler.maximum-allocation- vcores 


设置 单个 可 申请 的 最 小 /最 大 虚拟 CPU 个 数 。 例 如 设置 为 2 和 8， 则 运 
行 MapReduce 作业 时 ， 每 个 Task 最 少 可 申请 虚拟 CPU 数量 在 2 一 8 之 间 。 
默认 值 分 别 为 1 和 32。 


yarn.nodemanager.resource.cpu-vcores : 


设置 总 的 可 用 CPU 数目 。 默 认 值 为 8。 
对 于 MapReduce 而 言 ,每 个 作业 的 虚拟 CPU 数 可 通过 以 下 参数 设置 : 


mapreduce.map.cpu.vcores: 
CPU 数目 默认 值 为 1。 

5. 其 他 优化 常用 技巧 

以 下 技巧 也 是 常用 的 改善 性 能 的 实用 方法 。 





Q 在 Map 节点 使 用 Combiner， 将 多 个 Map 输出 合并 成 一 个 ， 减 
少 输出 结果 。 
Q HDFS 文件 系统 中 避免 大 量 小 文件 存在 。 
相对 于 大 量 的 小 文件 ，Hadoop 更 适合 于 处 理 少 量 的 大 文件 。 如 果 
文件 很 小 且 文 件数 量 很 多 ,那么 每 次 Map 任务 只 处 理 很 少 的 输入 数据 ， 
每 次 Map 操作 都 会 造成 额外 的 开销 。 


SHADOOP_HOME/etc/hadoop/mapred-site.xml: 


mapreduce.input.fileinputformat.split-minsize, 控制 Map 任务 输入 划 
分 的 最 小 字 节 数 。 默 认 值 为 0。 

大 量 小 文件 优化 方法 : 用 org.apache.hadoop.mapreduce.lib.input. 
CombineFileInputFormat 把 多 个 文件 合并 到 一 个 分 片 中 , 使 得 每 个 mapper 可 以 
处 理 更 多 的 数据 。 在 决定 哪些 块 放 入 同一 个 分 片 时 ，CombineFileInputFormat 
将 考虑 到 节点 和 机 架 的 因素 ， 以 实现 资源 开销 最 小 化 。 

OQ 调整 以 下 参数 可 以 调整 Map、Reduce 任务 并 发 数量 。 


mapred.map.tasks, 
mapred.min.split.size, 
mapred.min.split.size 
mapred.max.split.size 
dfs.blocksize 
mapred.reduce.tasks 


4.3.3 作业 优化 


在 经 过 以 上 Hadoop 性 能 优化 后 ,如 果 对 作业 运行 还 有 加 快 的 需求 ， 
则 采用 以 下 优化 方法 可 以 进一步 提升 作业 运行 性 能 。 
(1) 减少 作业 时 间 
检查 每 个 mapper 的 平均 运行 时 间 ， 如 果 发 现 mapper 运行 时 间 过 短 
(如 每 个 mapper i& 1T 10s), 说明 mapper 没有 得 到 良好 的 利用 ， 需 要 减 
少 mapper 的 数量 使 mapper 运行 更 长 的 时 间 ， 以 减少 整个 作业 执行 时 间 。 
例如 ， 提 交 运 行 pi 作业 ，map 达到 32 Hj: 
Estimated value of Pi is 3.15000000000000000000 
[root@slave2 hadoop]# bin/hadoop jar share/hadoop/mapreduce/hadoop- 
mapreduce-examples-2.7.1.jar pi 32 10 
Number of Maps = 32 
Samples per Map - 10 
17/05/30 20:39:36 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 


Wrote input for Map #0 

Wrote input for Map #1 

Wrote input for Map #2 

Wrote input for Map #3 

Wrote input for Map #4 

Wrote input for Map #5 

Wrote input for Map #6 

Wrote input for Map #7 

Wrote input for Map #8 

Wrote input for Map #9 

Wrote input for Map #10 

Wrote input for Map #11 

Wrote input for Map #12 

Wrote input for Map #13 

Wrote input for Map #14 

Wrote input for Map #15 

Wrote input for Map #16 

Wrote input for Map #17 

Wrote input for Map #18 

Wrote input for Map #19 

Wrote input for Map #20 

Wrote input for Map #21 

Wrote input for Map #22 

Wrote input for Map #23 

Wrote input for Map #24 

Wrote input for Map #25 

Wrote input for Map #26 

Wrote input for Map #27 

Wrote input for Map #28 

Wrote input for Map #29 

Wrote input for Map #30 

Wrote input for Map #31 

Starting Job 

17/05/30 20:39:38 INFO client. RMProxy: Connecting to ResourceManager at 
master/10.30.248.5:8032 

17/05/30 20:39:38 INFO input.FilelnputFormat: Total input paths to process : 32 
17/05/30 20:39:38 INFO mapreduce.JobSubmitter: number of splits:32 

17/05/30 20:39:39 INFO mapreduce.JobSubmitter: Submitting tokens for job: 
job 1495286256909 0026 

17/05/30 20:39:39 INFO impl.YarnClientlmpl: Submitted application application _ 
1495286256909 0026 

17/05/30 20:39:39 INFO mapreduce.Job: The url to track the job: http://master: 
8088/proxy/application 1495286256909 0026/ 

17/05/30 20:39:39 INFO mapreduce.Job: Running job: job 1495286256909 


0026 
17/05/30 20:39:46 
running in uber mode : false 


17/05/30 20:39:46 INFO mapreduce.Job: 
17/05/30 20:40:05 INFO mapreduce.Job: 
17/05/30 20:40:06 INFO mapreduce.Job: 
17/05/30 20:40:15 INFO mapreduce.Job: 
17/05/30 20:40:16 INFO mapreduce.Job: 
17/05/30 20:40:17 INFO mapreduce.Job: 
17/05/30 20:40:18 INFO mapreduce.Job: 
17/05/30 20:40:23 INFO mapreduce.Job: 
17/05/30 20:40:26 INFO mapreduce.Job: 
17/05/30 20:40:28 INFO mapreduce.Job: 
17/05/30 20:40:29 INFO mapreduce.Job: 
17/05/30 20:40:30 INFO mapreduce.Job: 
17/05/30 20:40:33 INFO mapreduce.Job: 
17/05/30 20:40:34 INFO mapreduce.Job: 
17/05/30 20:40:35 INFO mapreduce.Job: 
17/05/30 20:40:36 INFO mapreduce.Job: 
17/05/30 20:40:38 INFO mapreduce.Job: 
17/05/30 20:40:41 INFO mapreduce.Job: 
17/05/30 20:40:42 INFO mapreduce.Job: 
17/05/30 20:40:44 INFO mapreduce.Job: 
17/05/30 20:40:46 INFO mapreduce.Job: 
17/05/30 20:40:48 INFO mapreduce.Job: 
17/05/30 20:40:49 INFO mapreduce.Job: 
17/05/30 20:40:50 INFO mapreduce.Job: 
17/05/30 20:40:51 INFO mapreduce.Job: Job job 1495286256909 0026 completed 


successfully 


INFO mapreduce.Job: Job job 1495286256909 0026 


map 096 reduce 096 
map 996 reduce 096 
map 1996 reduce 096 
map 2296 reduce 096 
map 28% reduce 096 
map 3196 reduce 096 
map 3896 reduce 096 
map 4496 reduce 096 
map 4796 reduce 1596 
map 5096 reduce 1596 
map 5396 reduce 1796 
map 5996 reduce 1796 
map 5996 reduce 2096 
map 6396 reduce 2096 
map 6996 reduce 2196 
map 7296 reduce 2196 
map 7596 reduce 2596 
map 7896 reduce 2596 
map 8496 reduce 2696 
map 8896 reduce 2696 
map 9196 reduce 2896 
map 9796 reduce 2896 
map 10096 reduce 3096 
map 10096 reduce 10096 


17/05/30 20:40:51 INFO mapreduce.Job: Counters: 49 


File System Counters 


FILE: Number of bytes read-710 

FILE: Number of bytes written=3820333 
FILE: Number of read operations=0 

FILE: Number of large read operations=0 
FILE: Number of write operations=0 
HDFS: Number of bytes read=8342 
HDFS: Number of bytes written=215 
HDFS: Number of read operations=131 
HDFS: Number of large read operations=0 
HDFS: Number of write operations=3 


Job Counters 
Launched map tasks=32 
Launched reduce tasks=1 


Data-local map tasks-32 
Total time spent by all maps in occupied slots (ms)-287274 
Total time spent by all reduces in occupied slots (ms)-33834 
Total time spent by all map tasks (ms)=287274 
Total time spent by all reduce tasks (ms)=33834 
Total vcore-seconds taken by all map tasks-287274 
Total vcore-seconds taken by all reduce tasks-33834 
Total megabyte-seconds taken by all map tasks=294168576 
Total megabyte-seconds taken by all reduce tasks-34646016 
Map-Reduce Framework 
Map input records-32 
Map output records-64 
Map output bytes-576 
Map output materialized bytes=896 
Input split bytes=4566 
Combine input records=0 
Combine output records=0 
Reduce input groups=2 
Reduce shuffle bytes=896 
Reduce input records=64 
Reduce output records=0 
Spilled Records=128 
Shuffled Maps =32 
Failed Shuffles=0 
Merged Map outputs=32 
GC time elapsed (ms)=12259 
CPU time spent (ms)=100360 
Physical memory (bytes) snapshot-6525378560 
Virtual memory (bytes) snapshot=28322742272 
Total committed heap usage (bytes)=6643777536 
Shuffle Errors 
BAD ID-0 
CONNECTION=0 
IO ERROR-0 
WRONG LENGTH-0 
WRONG MAP-0 
WRONG REDUCE-0 
File Input Format Counters 
Bytes Read-3776 
File Output Format Counters 
Bytes Written=97 
Job Finished in 73.108 seconds 
Estimated value of Pi is 3.16250000000000000000 





作业 运 行 的 监控 界面 如 图 4-14 所 示 。 


C | O master:8088/cluster/scheduler?openQueues=def. 








LÁ" 100.04 Used 
el 100.0% used 
‘default’ Queue Status | 
Queue State: RUNNING 
Used Capacity: 100.096 
Absolute Used Capacity: 100.096 
Absolute Capacity: 100.096 
Absolute Max Capacity: 100.096 
Used Resources: «memory:8192, vCores:7> 
Num Schedulable Applications: 1 
Num Non-Schedulable Applications: 0 
Num Containers: 7 
Max Applications: 10000 
Max Applications Per User: 10000 
Max Application Master Resources: «memory:1024, vCores:1> 
Used Application Master Resources: «memory:2048, vCores:1> 
Max Application Master Resources Per User: «memory:1024, vCores:1> 
Configured Capacity: 100.096 
Configured Max Capacity: 100.096 
Configured Minimum User Limit Percent: 10096 
Configured User Limit Factor: 1.0 
Accessible Node Labels: * 
Preemption: disabled 






Active Users Info 


User Name Max Resource Used Resource 
root <memory:8192, vCores:1» <memory:8192, vCores:7> 
Max AM Resource Used AM Resource Schedulable Apps | Non-Schedulable Apps 
<memory:1024, vCores:1> «memory:2048, vCores:1> 1 0 
1D + User Name © Application Type © Queue 
application 1495285256909 0026 root — QuasiMonteCarlo — MAPREDUCE default 
Startlime © — FinisMime © State 2 — FinalStatus © Progress Tracking UI 
Tue May 30 WA RUNIN; — UNDEFINED &Applicationlaster 
20:39:39 40800 


图 4-14 作业 的 运行 时 间 及 状态 的 监控 界面 CD 


其 中 ， 调 度 使 用 的 计算 能 力 达 到 100%, container 可 达 7 个 ， 运 行 
作业 时 间 73.108s。 
把 map 减少 为 2 时 : 


[root@slave2 hadoop]# bin/hadoop jar share/hadoop/mapreduce/hadoop- 
mapreduce-examples-2.7.1 jar pi 2 10 

Number of Maps -2 

Samples per Map - 10 

17/05/30 17:09:54 WARN util.NativeCodeLoader: Unable to load native-hadoop 
library for your platform... using builtin-java classes where applicable 

Wrote input for Map #0 

Wrote input for Map #1 

Starting Job 

17/05/30 17:09:55 INFO client. RMProxy: Connecting to ResourceManager at 
master/10.30.248.5:8032 

17/05/30 17:09:56 INFO input.FilelnputFormat: Total input paths to process : 2 
17/05/30 17:09:56 INFO mapreduce.JobSubmitter: number of splits:2 

17/05/30 17:09:56 INFO mapreduce.JobSubmitter: Submitting tokens for job: 
job 1495286256909 0023 

17/05/30 17:09:56 INFO impl.YarnClientlmpl: Submitted application application 
1495286256909 0023 


17/05/30 17:09:56 INFO mapreduce.Job: The url to track the job: http://master: 
8088/proxy/application 1495286256909 0023/ 
17/05/30 17:09:56 INFO mapreduce.Job: Running job: job 1495286256909 0023 
17/05/30 17:10:02 INFO mapreduce.Job: Job job 1495286256909 0023 running 
in uber mode : false 
17/05/30 17:10:02 INFO mapreduce.Job: map 096 reduce 096 
17/05/30 17:10:10 INFO mapreduce.Job: map 10096 reduce 096 
17/05/30 17:10:17 INFO mapreduce.Job: map 10096 reduce 10096 
17/05/30 17:10:17 INFO mapreduce.Job: Job job 1495286256909 0023 completed 
successfully 
17/05/30 17:10:17 INFO mapreduce.Job: Counters: 49 
File System Counters 
FILE: Number of bytes read-50 
FILE: Number of bytes written=347211 
FILE: Number of read operations=0 
FILE: Number of large read operations=0 
FILE: Number of write operations=0 
HDFS: Number of bytes read-522 
HDFS: Number of bytes written=215 
HDFS: Number of read operations-11 
HDFS: Number of large read operations=0 
HDFS: Number of write operations-3 
Job Counters 
Launched map tasks-2 
Launched reduce tasks-1 
Data-local map tasks-2 
Total time spent by all maps in occupied slots (ms)=11113 
Total time spent by all reduces in occupied slots (ms)-4195 
Total time spent by all map tasks (ms)=11113 
Total time spent by all reduce tasks (ms)=4195 
Total vcore-seconds taken by all map tasks=11113 
Total vcore-seconds taken by all reduce tasks-4195 
Total megabyte-seconds taken by all map tasks-11379712 
Total megabyte-seconds taken by all reduce tasks-4295680 
Map-Reduce Framework 
Map input records-2 
Map output records-4 
Map output bytes-36 
Map output materialized bytes-56 
Input split bytes-286 
Combine input records=0 
Combine output records=0 
Reduce input groups=2 
Reduce shuffle bytes=56 
Reduce input records=4 
Reduce output records=0 





Spilled Records-8 
Shuffled Maps =2 
Failed Shuffles=0 
Merged Map outputs-2 
GC time elapsed (ms)-293 
CPU time spent (ms)-4960 
Physical memory (bytes) snapshot-594358272 
Virtual memory (bytes) snapshot-2585853952 
Total committed heap usage (bytes)-603979776 

Shuffle Errors 
BAD ID-0 
CONNECTION=0 
IO ERROR-0 
WRONG LENGTH-0 
WRONG MAP-0 
WRONG REDUCE-0 

File Input Format Counters 
Bytes Read-236 

File Output Format Counters 
Bytes Written=97 

Job Finished in 21.906 seconds 
Estimated value of Pi is 3.80000000000000000000 


此 时 的 监控 界面 如 图 4-15 所 示 。 


(D master-8088/cluster/scheduler?openQueues=default 


Queue State: RUNNING 
Used Capacity: 50.0% 
Absolute Used Capacity: 50.096 
Absolute Capacity: 100.0% 
Absolute Max Capacity: 100.096 


Used Resources: «memory:4096, vCores:3> 


Num Schedulable Applications: 1 
Num Non-Schedulable Applications: 0 
Num Containers: 3 

Max Applications: 10000 

Max Applications Per User: 10000 


Max Application Master Resources: 

Used Application Master Resources: 

Max Application Master Resources Per User: 
Configured Capacity: 

Configured Max Capacity: 

Configured Minimum User Limit Percent: 
Configured User Limit Factor: 

Accessible Node Labels: 

Preemption: 


Active Users Info 


<memory:1024, vCores:1> 
<memory:2048, vCores:1> 
<memory:1024, vCores:1> 
100.0% 

100.0% 

100% 

1.0 


* 


disabled 


User Name Max Resource Used Resource 
root <memory:8192, vCores:1> <memory:4096, vCores:3> 


Max AM Resource Used AM Resource 


Schec 


«memory:1024, vCores:1> <memory:2048, vCores:1» 1 


4-15 ”作业 的 运行 时 间 及 状态 的 


监控 界面 (2) 


其 中 ， 调 度 使 用 的 计算 能 力 只 需 5096, container 3 个 即 可 ， 运 行 作 
业 时 间 21.906s。 
(2) 调节 节点 任务 
如 果 任 务 数 远 小 于 集群 可 以 同时 运行 的 最 大 任务 数 , 可 以 把 调度 策 
WJ capacity scheduler 修改 为 fair scheduler， 使 得 各 个 节点 的 任务 数 接 
近 平衡 。 在 默认 情况 下 资源 调度 器 在 一 个 心跳 周期 会 尽 可 能 多 地 分 配 任 
务 给 前 面 的 节点 ， 先 发 送 心跳 的 节点 将 领 到 较 多 任务 。 
修改 参数 如 下 : 
S$HADOOP HOME/etc/hadoop/yarn-site.xml 配置 文件 中 的 yam.scheduler. 
fairmax.assign 设置 为 1 (默认 是 -1)。 
(3) 优化 shuffle， 提 高 map/reduce 作业 性 能 
Hadoop 把 map 的 输出 结果 和 元 数据 存 入 内 存 环形 缓冲 区 ， 默 认为 
100MB。 对 于 大 集群 ， 可 增加 它 ， 如 设 为 200MB 。 当 缓冲 区 达到 一 定 
BUA, W 80%， 会 启动 一 个 后 台 线 程 来 对 缓冲 区 的 内 容 进行 排序 ， 然 后 
写 入 本 地 磁盘 〈 一 个 spill 文件 )。 


$HADOOP_HOME/etc/hadoop/mapred-site .xml: 
mapreduce.task.io.sort.mb 


默认 值 为 100MB。 
mapreduce.map.sort.spill.percent 
默认 值 为 0.8MB。 
mapreduce.task.io.sort.factor 


map 结果 传 到 本 地 时 ， 需 要 做 合并 merge。 增 加 它 可 增加 merge 的 
并 发 吞吐 ， 从 而 提高 reduce IO 性 能 。 

默认 值 : 10 个 。 

(4) 代码 优化 

复 用 Writables (Reuse Writables ) 。 

在 代码 中 使 用 “new Text” 或 “new IntWritable” 时 ， 如 果 它 们 出 
现在 一 个 内 部 循环 或 是 map/reduce 方法 的 内 部 时 ， 要 避免 在 一 个 
map/reduce 方法 中 为 每 个 输出 都 创建 Writable 对 象 。 

例如 ， 以 下 Java 代码 : 

for (String word : words) ( 


output.collect(new Text(word), new IntWritable(1)); 
} 





这 种 代码 对 性 能 的 影响 : 会 导致 程序 分 配 出 成 千 上 万 个 短 周期 的 对 
象 ， 给 Java 垃圾 收集 器 带 来 较 大 负担 ， 大 大 影响 性 能 。 

性 能 改进 方法 : 把 new Text、newIntWritable 放 到 循环 外 。 

Hadoop 是 个 不 断 进化 完善 的 生态 系统 。 更 多 的 性 能 优化 方法 有 待 
学 习 者 在 实践 中 总 结 提炼 。 


44 ”作业 与 练习 


. 请 列 出 3 个 以 上 主要 性 能 因子 。 

. 请 列 出 5 个 以 上 主要 性 能 指标 并 说 明 其 代表 的 含义 。 

. 请 列 出 3 个 以 上 主要 性 能 监测 工具 并 说 明 它 的 运用 方法 。 

. Hadoop 集群 配置 规划 优化 可 以 采取 哪些 措施 ? 

. 请 说 明 Hadoop 集群 优化 的 5 个 技巧 。 

.如 何 调整 map 任务 数目 ? 请 比较 调整 map 任务 数 的 运行 效果 。 
.如 何 修改 调度 策略 ? 
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安全 管理 


数据 是 企业 或 者 其 他 组 织 的 核心 资产 , 一 些 新 兴 的 互联 网 科技 公司 
如 Facebook、 阿里 巴巴 拥有 用 户 的 大 量 数据 , 对 这 些 数据 进行 分 析 的 价 
值 甚至 赶 超 了 其 主要 营 收 业务 的 价值 ,在 享受 大 数据 分 析 便 利和 效果 的 
同时 , 也 必须 注重 安全 管理 , 保护 核心 资产 的 保密 性 、 完整 性 和 可 用 性 。 

本 章 将 介绍 信息 安全 的 基础 概念 和 基础 内 容 , 包括 安全 管理 、 资产 
安全 、 应 用 安全 、 威 胁 管理 、 安 全 措施 ， 通 过 引入 一 些 案例 提升 读者 的 
安全 意识 ， 重 点 对 大 数据 系统 的 应 用 安全 和 数据 安全 进行 介绍 。 


5.1 安全 概述 


安全 管理 的 主要 目标 是 保障 系统 的 安全 和 稳定 运行 , 以 及 资产 的 保 
密 性 、 完 整 性 和 可 用 性 。 
O 保密 性 是 指 对 数据 的 访问 限制 ， 只 有 被 授权 的 人 才能 使 用 。 
ü 完整 性 特别 是 与 数据 相关 的 完整 性 ， 指 的 是 保证 数据 没有 在 未 
经 授权 的 方式 下 改变 。 
O “可 用 性 是 指 计算 机 服务 时 间 内 ， 确 保 服 务 的 可 用 《关于 可 用 性 
的 管理 ， 详 见 第 6 章 )。 
在 ISO 中 , 信息 安全 的 定义 是 在 技术 上 和 管理 上 为 数据 处 理 系统 建 
立 的 安全 保护 , 保护 计算 机 硬件 、 软 件 和 数据 不 因 侦 然 和 恶意 的 原因 而 
遭 到 破坏 、 更 改 和 泄漏 。 
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自从 互联 网 诞生 以 来 , 黑客 和 攻击 就 伴随 而 来 , 有 关 信 息 安全 的 问 
题 一 直 呈 现 上 升 态势 ， 如 图 5-1 fim. 


87 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 





图 5-1 信息 安全 问题 呈 上 升 态势 


而 近 十 几 年 来 , 随 着 相关 软 硬 件 技术 的 发 展 ,安全 管理 相关 的 技术 
越 来 越 强 , 如 代码 扫描 和 漏洞 检测 工具 的 成 熟 \ 日 志 数 据 分 析 的 智能 化 、 
防火 墙 和 网 络 安全 相关 软件 的 性 能 增强 、HTTPS 协议 的 广泛 应 用 等 ， 
但 是 风险 和 威胁 仍然 没有 消除 ,如 何 创建 并 且 维 护 一 个 安全 的 系统 ， 仍 
然 是 每 一 个 从 业者 不 得 不 考虑 的 问题 。 


52 ”资产 安全 管理 
5.2.1 “环境 设施 安全 


环境 可 以 分 为 服务 器 机 房 环境 和 终端 办 公 环 境 。 不 管 是 哪 一 种 环 
境 ， 都 必须 先 将 环境 划分 成 小 的 功能 区 ,每 个 功能 区 设置 门禁 措施 ， 只 
有 配置 了 相关 权限 的 人 员 才 可 以 进出 .门禁 系统 目前 应 用 比较 广泛 的 主 
要 分 为 卡片 式 、 密 码 式 、 生 物 特征 式 和 混合 式 。 卡 片 式 的 门禁 系统 ， 人 
员 需 凭 刷卡 进出 ; 密码 式 门禁 系统 ， 人 员 和 凭借 输入 口令 进出 ; 生物 特征 
式 的 门禁 系统 ， 人 员 可 以 通过 指纹 、 虹 膜 、 面 部 识别 等 生物 特征 进行 进 
出 ; 混合 式 的 门禁 系统 可 能 会 采取 卡片 、 密 码 或 者 生物 特征 中 的 多 种 方 
式 。 而 对 于 非 企业 内 部 的 工作 人 员 , 最 好 有 一 套 临时 人 员 的 进出 登记 制 
度 ， 对 于 机 房 等 关键 场所 ， 外 来 人 员 进 入 时 需要 有 内 部 人 员 陪 同 。 

为 保护 昂贵 的 电子 设备 和 数据 资源 , 机 房 一 般 都 会 配备 报警 及 灭火 
系统 。 传 统 的 水 因为 会 破坏 电子 设备 ， 因 而 在 一 般 办 公 场 所 使 用 ,而 在 


机 房 灭火 中 使 用 较 少 。 在 国内 , 在 机 房 中 应 用 比较 普遍 的 是 气体 灭火 系 
统 , 该 系统 是 将 某 些 具 有 灭火 能 力 的 气态 化 合 物 , 常温 下 储存 于 常温 高 
压 或 低温 低压 容器 中 , 在 火灾 发 生 时 通过 自动 或 手动 控制 设备 施放 到 火 
灾 发 生 区 域 , 从 而 达到 灭火 目的 。 气体 灭火 种 类 较 多 , 主要 有 二 氧化 碳 、 
七 氟 丙 烷 、 三 氟 甲 烷 、 烟 烙 灼 等 。 但 应 用 气体 灭火 系统 ， 也 需要 谨慎， 
防范 人 员 被 困 造 成 的 生命 风险 。 

视频 监控 也 是 一 个 通用 的 安全 管控 手段 , 在 关键 的 通道 、 入 口 处 安 
装 音 视频 监控 设备 , 通过 摄像 和 录音 的 方式 获取 环境 的 实时 状态 ,并 根 
据 存 储 容量 ， 保 存 数 天 或 者 数 月 的 存档 ， 方 便 以 后 调 档 查 询 。 

除 以 上 手段 外 , 一 般 的 数据 中 心 也 会 有 防水 、 防 雷 、 防 鼠 患 等 措施 ， 
另外 还 需 对 机 房 温 度 、 湿 度 、 电 力 工作 情况 进行 相关 监控 。 


5.22 ”设备 安全 


为 防 各 种 设备 的 丢失 或 者 损坏 , 设备 的 管理 必 不 可 少 。 常 见 的 管控 
措施 包括 对 所 有 设备 进行 统一 登记 和 编码 ， 在 新 购 、 维 修 、 报 废 、 迁 移 
等 环节 对 资产 的 配置 信息 进行 及 时 维护 , 每 年 固定 时 间 对 设备 信息 进行 
审计 复核 。 目 前 , 已 经 有 二 维 码 或 者 RFID 内 置 的 标签 ， 可 以 粘贴 在 各 
种 设备 的 物理 表面 ， 方 便 进行 统一 管理 。 


53 ”应 用 安全 
5.3.1 技术 安全 

1. 安全 漏洞 

由 于 应 用 层 的 入 侵 相 对 系统 、 网 络 、 物 理 方 面 门 槛 较 低 ， 而 应 用 又 
会 由 于 需求 的 新 增 而 快速 发 展 ， 来 自 应 用 层 的 攻击 不 容 小 视 。OWASP 
根据 攻击 向 量 、 漏洞 普遍 性 、 漏洞 可 检测 性 、 技术 影响 几 个 维度 的 评估 ， 
列 出 了 10 大 Web 应 用 漏洞 ， 如 表 5-1 所 示 。 

表 5-1 OWASP TOP 10 Web 安全 漏洞 
漏 洞 概 述 





注入 攻击 漏洞 ， 例如 SQL. OS 以 及 LDAP 注入 。 这 些 攻 
击发 生 在 当 不 可 信和 的 数据 作为 命令 或 者 查询 语句 的 一 部 

注入 分 ， 被 发 送 给 解释 器 时 。 攻 击 者 发 送 的 恶意 数据 可 以 欺骗 
解释 器 ， 以 执行 计划 外 的 命令 或 者 在 未 被 恰当 授权 时 访问 
数据 
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ia 


失效 的 身份 认证 
和 会 话 管理 


跨 站 脚本 (XSS) 


失效 的 访问 控制 


安全 配置 错误 


敏感 信息 泄露 


攻击 检测 与 防护 


不 足 


跨 站 请 求 伪造 
(CSRF) 


Hk 

概 述 
与 身份 认证 和 会 话 管理 相关 的 应 用 程序 功能 往往 得 不 到 正 
确 的 实现 ， 这 就 导致 了 攻击 者 破坏 密码 、 密 钥 、 会 话 令 牌 ， 
或 攻击 其 他 的 漏洞 去 冒充 其 他 用 户 的 身份 《暂时 或 永久 的 ) 
当 应 用 程序 收 到 含有 不 可 信 的 数据 ， 在 没有 进行 适当 的 验 
证 和 转 义 的 情况 下 ， 就 将 它 发 送 给 一 个 网 页 浏览 器 ， 或 者 
使 用 可 以 创建 JavaScript 脚本 的 浏览 器 API， 利 用 用 户 提 供 
的 数据 更 新 现 有 网 页 ， 这 就 会 产生 跨 站 脚本 攻击 。XSS ft 
许 攻 击 者 在 受害 者 的 浏览 器 上 执行 脚本 ， 从 而 劫持 用 户 会 
话 、 危 害 网 站 或 者 将 用 户 重 定 向 到 恶意 网 站 
对 于 通过 认证 的 用 户 所 能 够 执行 的 操作 ， 缺 乏 有 效 的 限制 。 
攻击 者 就 可 以 利用 这 些 缺 陷 来 访问 未 经 授权 的 功能 和 /或 数 
据 ， 例 如 访问 其 他 用 户 的 账户 ， 查 看 敏感 文件 ， 修 改 其 他 
用 户 的 数据 ， 更 改 访问 权限 等 
由 于 许多 设置 的 默认 值 并 不 是 安全 的 ， 因 此 ， 必 须 定义 、 实 
施 和 维护 这 些 设 置 。 此 外 ， 所 有 的 软件 应 该 保持 及 时 更 新 
许多 Web 应 用 程序 和 API 没有 正确 保护 敏感 数据 , 如 财务 、 
医疗 保健 和 PII。 攻 击 者 可 能 会 窃取 或 算 改 此 类 弱 保 护 的 数 
据 ， 进 行 信用 卡 欺 骗 、 身 份 窃取 或 其 他 犯罪 行为 。 敏 感 数 
据 应 该 具有 额外 的 保护 ， 例 如 在 存放 或 在 传输 过 程 中 的 加 
密 ， 以 及 与 浏览 器 交换 时 进行 特殊 的 预防 措施 
大 多 数 应 用 和 API 缺乏 检测 、 预 防 和 响应 手动 或 自动 化 攻 
击 的 能 力 。 攻 击 保护 措施 不 限于 基本 输入 验证 ， 还 应 具备 
自动 检测 、 记 录 和 响应 ， 甚 至 阻止 攻击 的 能 力 。 应 用 所 有 
者 还 应 能 够 快速 部 署 安全 补丁 以 防御 攻击 
一 个 跨 站 请 求 伪 造 攻击 迫使 登录 用 户 的 浏览 器 将 伪造 的 
HTTP 请 求 , 包括 受害 者 的 会 话 cookie 和 所 有 其 他 自动 填充 
的 身份 认证 信息 ， 发 送 到 一 个 存在 漏洞 的 Web 应 用 程序 





使 用 含有 已 知 漏 
洞 的 组 件 


组 件 ， 如 库 文件 、 框 架 和 其 他 软件 模块 ， 具 有 与 应 用 程序 
相同 的 权限 。 如 果 一 个 带 有 漏洞 的 组 件 被 利用 ， 这 种 攻击 
可 以 促成 严重 的 数据 丢失 或 服务 器 接管 。 应 用 程序 和 API 
使 用 带 有 已 知 漏洞 的 组 件 可 能 会 破坏 应 用 程序 的 防御 系 
统 ， 并 使 一 系列 可 能 的 攻击 和 影响 成 为 可 能 





未 受 有 效 保护 的 
API 


现代 应 用 程序 通常 涉及 丰富 的 客户 端 应 用 程序 和 APT, 如 浏 
览 器 和 移动 APP 中 的 JavaScript， 其 与 某 类 API (SOAP/ 
XML, REST/SON,. RPC. GWT 等 ) 连接 。 这 些 API 通常 
是 不 受 保护 的 ， 并 且 包 含 许多 漏洞 


2. 安全 开发 


解 铃 还 需 系 铃 人 ,如 果 是 应 用 代码 本 身 产生 的 漏洞 ， 那 么 在 代码 层 

加 固 或 者 编码 时 就 避免 是 最 根本 的 措施 。 
(1) 设计 完整 的 认证 和 授权 

在 设计 和 开发 应 用 程序 时 , 常会 使 用 认证 和 授权 技术 来 对 用 户 或 者 
用 户 的 权限 做 出 甄别 。 认 证 是 系统 鉴别 该 用 户 是 否 属于 该 系统 的 合法 用 
P, 基本 原理 是 用 户 输入 用 户 标识 和 口令 , 系统 检验 标识 和 口令 是 否 匹 
配 。 为 了 提高 安全 性 ， 用 户 除 提供 密码 外 ， 可 能 还 需要 提供 生物 标识 、 
证 书 或 者 动态 口令 等 。 

由 于 Web 应 用 中 的 用 户 众 多 , 但 是 常 能 把 用 户 划 分 成 不 同 的 角色 ， 
一 般 的 Web 应 用 权限 系统 的 设计 都 会 采用 RBAC (Role-bases Access 
Contrl) 的 模型 。 基 于 角色 的 访问 控制 RBAC 是 指 在 应 用 环境 中 ， 通 过 
对 合法 的 访问 者 进行 角色 认证 来 确定 访问 者 在 系统 中 对 哪 类 信息 有 什 
么 样 的 访问 权限 。 系 统 只 问 用 户 是 什么 角色 ， 而 不 管用 户 是 谁 。 角 色 可 
以 理解 成 为 其 工作 涉及 相同 行为 和 责任 范围 内 的 一 组 人 , 一 个 访问 者 可 
以 扮演 多 个 角色 ， 一 个 角色 也 可 以 包含 多 个 访问 者 。 角 色 访 问 控制 具有 
以 下 优点 : 便于 授权 管理 , 便于 赋予 最 小 特权 , 便于 根据 工作 需要 分 级 ， 
责任 独立 ， 便 于 文件 分 级 管理 ， 便 于 大 规模 实现 。 角 色 访 问 是 一 种 有 效 
而 灵活 的 安全 措施 ， 系 统管 理 模式 明确 ， 节 约 管理 开销 。 

在 具体 的 系统 设计 和 实现 中 , 两 个 重点 的 问题 是 : 权限 信息 的 存储 
和 权限 的 校 验 。 

在 权限 控制 模块 中 ， 需 要 用 到 的 信息 有 : 系统 的 所 有 角色 ， 系 统 的 
所 有 用 户 , 系统 所 有 的 功能 , 系统 所 有 的 资源 , 用 户 跟 角色 之 间 的 关系 ， 
角色 跟 功 能 之 间 的 关系 , 角色 跟 资源 之 间 的 关系 或 者 用 户 跟 资源 之 间 的 
关系 。 除 了 数据 库 以 外 ， 也 可 以 使 用 LDAP 服务 器 、XML 文件 来 存储 
权限 信息 。 有 了 权限 信息 ， 就 可 以 得 出 一 个 用 户 的 精确 权限 信息 。 

针对 权限 的 校 验 , 主要 有 功能 校 验 和 数据 校 验 两 个 方面 。 功 能 校 验 
是 检验 用 户 能 不 能 执行 该 项 功能 , 而 数据 校 验 是 检验 用 户 能 不 能 访问 某 
项 数据 。 在 一 个 完善 的 权限 校 验 系统 中 ， 两 者 缺 一 不 可 。 进 行 权限 校 验 
时 ， 会 花费 更 多 的 系统 开销 ， 特 别 是 对 数据 校 验 时 ， 可 能 造成 对 数据 库 
的 重复 访问 ， 影 响 性 能 。 在 进行 权限 校 验 时 ， 要 针对 系统 的 具体 需求 ， 
总 体 设计 进行 考虑 。 

除了 RBAC 模型 外 ， 还 有 一 些 其 他 的 权限 控制 方式 去 控制 用 户 权 
限 。 如 当 数 据 的 访问 权限 非常 复杂 ， 会 使 用 ACL 的 方式 ， 而 在 一 些 系 
统 中 , 用 户 的 权限 是 随 着 用 户 的 状态 和 上 下 文 变化 的 , 这 时 就 要 使 用 基 
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于 用 户 属性 的 权限 控制 方式 , 通过 逻辑 计算 用 户 的 属性 , 来 得 到 最 后 的 
权限 信息 。 一 些 开发 框架 已 经 把 权限 控制 的 思想 融入 了 进去 ， 如 JAAS 
和 ACEGI。 

(2) 数据 过 滤 

因为 危险 输入 造成 的 漏洞 是 危害 性 最 大 ,影响 面 最 广 的 。 健 壮 的 输 
入 和 输出 过 滤 可 以 大 大 降低 Web 应 用 受 攻击 的 风险 。XSS 和 SQL 注入 
这 两 个 高 危 风险 都 是 由 于 没有 数据 过 滤 或 者 数据 过 滤 不 当 引 起 的 。 

数据 过 滤 策 略 包括 输入 过 滤 和 输出 过 滤 。 输 入 过 滤 不 当 会 造成 恶意 
代码 在 服务 器 端 执 行 , 输出 过 滤 不 当 会 造成 恶意 代码 在 客户 端 执行 。 可 
能 在 服务 器 端 执行 的 恶意 代码 有 SQL 语句 、JSP 或 者 其 他 服务 器 容器 指 
令 、 命 令 行 指令 、XML 语言 ， 而 可 能 在 客户 端 执行 的 恶意 代码 主要 是 
HTML, JavaScript. 

对 输入 的 定义 可 以 分 为 两 种 : 定义 错误 输入 的 格式 , 不 错误 的 即 为 
正确 输入 ; 定义 正确 输入 的 格式 ,不 正确 的 即 为 错误 输入 。 第 一 种 方法 
即 为 黑 名 单方 式 , 第 二 种 方法 被 称 为 白 名 单 。 白 名 单 比 黑 名 单 从 理论 上 
更 安全 ， 因 为 正确 输入 的 范围 可 以 得 到 控制 。 

对 于 一 般 的 输入 ， 可 以 使 用 正则 表达 式 定义 数据 、 日期、 电子 邮件 
地 址 等 数据 格式 。 但 是 在 很 多 Web 应 用 中 ， 人 允许 用 户 个 性 化 自己 的 页 
面 ， 如 一 些 博客 网 站 、B2B 网 站 ， 用 户 可 以 提交 HTML 和 CSS 去 构建 
自己 的 个 性 化 页 面 ， 这 种 输入 被 称 为 富 文本 。 这 时 ， 需 要 从 语义 上 对 用 
户 输入 进行 分 析 和 限定 ， 目 前 应 用 比较 广 的 是 antisamy 提供 的 API， 可 
以 使 用 XML 制定 更 详细 的 数据 格式 。 

(3) 敏感 信息 加 密 

对 于 黑客 来 说 ， 有 价值 的 数据 只 有 读 出 来 才 有 价值 , 而 保护 有 价值 
信息 最 好 的 技术 之 一 就 是 加 密 。 加 密 是 将 信息 的 编码 进行 杂凑 ， 使 不 知 
道 密 码 的 人 无 法 获知 数据 的 意义 。 对 于 Web 应 用 来 说 ， 信 息 的 传输 和 
存储 都 需要 加 密 。 在 传输 层面 上 ， 可 以 使 用 HITPS 协议 加 密 传输 有 密 
码 、 账 户 等 敏感 信息 的 HTTP 请 求 或 者 回复 ; 在 服务 器 端 ， 使 用 加 密 算 
法 对 保存 在 配置 文件 、 数 据 库 的 用 户 密码 进行 加 密 存储 , 防止 密码 外 泄 。 

(4) 保留 审计 记录 

对 用 户 访问 应 用 中 的 关键 操作 , 应 该 予以 记录 ,便于 日 后 进行 审计 。 
审计 记录 的 内 容 至 少 应 包括 事件 日 期 、 时 间 、 发 起 者 信息 、 类 型 、 描 述 
和 结果 等 。 审 计 的 关键 操作 就 是 日 志 的 记录 。 一 种 流行 的 日 志 API 是 
log4j 系列 ， 而 且 它 已 经 被 移植 到 了 C. C++. C£. Perl, Python, Ruby 
和 Eiffel 语言 





3. 安全 测试 


自动 扫描 工具 可 自动 产生 输入 , 根据 输出 来 判断 系统 是 否 存在 安全 
漏洞 。 自 动 化 扫描 工具 速度 较 快 ， 测 试用 例 多 ， 能 有 针对 性 地 发 现 一 些 
特定 漏洞 , 如 代码 远程 执行 类 的 漏洞 。 但 是 自动 化 扫描 工具 也 有 局 限 性 ， 
它 是 根据 request 后 的 response 来 提取 特征 ， 从 而 发 现 漏 洞 。 业 界 已 经 
有 一 些 比较 成 熟 的 工具 ， 兼 具 上 述 功 能 的 一 种 或 者 几 种 ， 如 IBM 的 
AppScan、HP 的 WebInspect。 另 外 也 可 以 从 代码 扫描 的 角度 出 发 ， 通 过 
工具 软件 扫描 代码 中 符合 安全 漏洞 的 特征 ， 例 如 Fortify 。 

自动 扫描 工具 即使 对 部 分 漏洞 来 说 也 存在 误 报 、 漏 报 情况 。 但 是 由 
于 其 速度 快 , 再 结合 人 工 检 查 确认 的 方式 , 可 以 比较 客观 地 评估 应 用 的 
安全 情况 。 

4. 运 维 加 固 


即使 应 用 中 预 埋 了 安全 漏洞 , 一 般 也 需要 通过 输入 才能 触发 , 在 应 
用 架构 中 部 署 应 用 防火 墙 , 通过 定义 恶意 输入 的 规则 ,也 可 以 在 恶意 输 
入 到 达 应 用 前 就 进行 过 滤 。 

另外 ， 对 于 整个 系统 中 的 操作 系统 、 数 据 库 、 网 络 系统 等 ， 要 定期 
进行 扫描 和 评估 ， 当 该 系统 版 本 已 经 出 现 安全 漏洞 时 ， 要 及 时 进行 升级 
或 者 安装 补丁 。 


5.3.2 ”数据 安全 


1. 存储 安全 


Hadoop 集群 中 ， 应 用 层 实 现 了 数据 的 多 点 备份 和 存储 ， 每 一 份 数 
据 都 有 3 个 副本 存储 , 任何 一 个 副本 故障 都 不 会 造成 数据 的 丢失 。 如 果 
在 应 用 层 没有 实现 数据 的 多 点 备份 ， 那 么 在 硬件 层面 要 考虑 RAID 
(Redundant Arrays of Independent Disks, RR REJI). 

RAID 有 “独立 磁盘 构成 的 具有 元 余 能 力 的 阵列 ”之 意 。 磁 盘 阵 列 
是 由 很 多 价格 较 便宜 的 磁盘 组 合成 一 个 容量 巨大 的 磁盘 组 , 利用 个 别 磁 
盘 提 供 数据 所 产生 的 加 成 效果 提升 整个 磁盘 的 系统 效能 。 利 用 这 项 技 
R, 将 数据 切割 成 许多 区 段 , 分 别 存放 在 各 个 硬盘 上 。 磁盘 阵列 还 能 利 
用 同位 检查 (Parity Check) 的 观念 ， 在 数组 中 任意 一 个 硬盘 发 生 故 障 
时 , 仍 可 读 出 数据 , 在 数据 重 构 时 , 将 数据 经 计算 后 重新 置 入 新 硬盘 中 。 
RAID 技术 主要 包含 RAID 0—RAID 50 等 数 个 规范 , 它们 的 侧重 点 各 不 
相同 。 

大 数据 系统 一 般 不 是 数据 的 生产 者 ， 而 是 进行 数据 的 收集 和 分 析 ， 
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自身 产生 的 数据 主要 是 分 析 后 的 结果 。 从 这 个 角度 上 来 看 ,大 数据 系统 
就 是 一 个 源 数据 的 备份 系统 ， 每 天 通过 数据 收集 把 源 数 据 收集 存储 起 
来 , 但 是 数据 的 存储 终归 是 需要 成 本 的 , 而 对 于 计算 机 存储 的 几 级 架构 
而 言 ， 存 取 速 度 越 慢 ， 价 格 越 便宜 。 目 前 的 Hadoop 相关 技术 主要 利用 
了 相对 主流 标准 的 硬件 设备 ， 如 常见 的 PC server, TRE T m vB 
型 机 和 存储 设备 , 但 是 硬件 设备 的 成 本 总 归 是 需要 考虑 的 因素 。 在 构建 
大 数据 系统 中 ,要 能 够 确定 数据 在 系统 中 存储 的 时 限 ， 如 定义 好 系统 存 
储 最 近 一 月 或 者 最 近 一 年 的 数据 , 时 间 较 老 的 数据 在 后 续 分 析 中 的 用 途 
并 不 大 , 可 以 通过 提取 统计 数据 后 , 将 较 老 的 原始 数据 归档 到 磁带 系统 
中 ， 保 持 大 数据 系统 本 身 的 规模 不 会 持续 扩张 。 


2. 传输 安全 


如 果 数 据 的 传输 经 过 了 不 安全 的 网 络 , 例如 互联 网 , 那么 使 用 加 密 
和 安全 的 协议 就 是 必要 的 措施 。 

超 文 本 传输 协议 HTTP 协议 被 用 于 在 Web 浏览 器 和 网 站 服务 器 之 
间 传 递 信息 。HTTP 协议 以 明文 方式 发 送 内 容 ， 不 提供 任何 方式 的 数据 
加 密 ， 如 果 攻 击 者 截取 了 Web 浏览 器 和 网 站 服务 器 之 间 的 传输 报 文 ， 
就 可 以 直接 读 懂 其 中 的 信息 ， 因 此 HTTP 协议 不 适合 传输 一 些 敏 感 信 
息 。 为 了 解决 HITP 协议 的 这 一 缺陷 ， 需 要 使 用 另 一 种 协议 : 安全 套 接 
字 层 超 文 本 传输 协议 HTTPS。 为 了 数据 传输 的 安全 ，HTTPS 在 HTTP 
的 基础 上 加 入 了 SSL 协议 ，SSL 依靠 证 书 来 验证 服务 器 的 身份 ， 并 为 
浏览 器 和 服务 器 之 间 的 通信 加 密 。 采 用 HTTPS 的 服务 器 必须 从 证 书 授 
权 中 心 CCA, Certificate Authority) 申请 一 个 用 于 证 明 服 务 器 用 途 类 型 
的 证 书 。 该 证 书 只 有 用 于 对 应 的 服务 器 时 ， 客 户 端 才 信任 此 主机 。 客 户 
通过 信任 该 证 书 ， 从 而 信任 了 该 主机 。 

当然 ，HTTPS 协议 的 每 步 应 用 都 伴随 着 加 密 解 密 ， 对 于 网 络 传输 
而 言 ， 效 率 确 实 没有 直接 传输 高 ， 过 去 只 在 网 上 银行 或 者 传输 用 户 名 密 
码 时 才 使 用 HTTPS 协议 。 但 目前 随 着 SSL 网 关 的 发 展 ， 在 硬件 层面 对 
HTTPS 协议 进行 加 速 ， 提 高 了 访问 速度 ， 连 搜索 引擎 的 搜索 都 使 用 了 
HTTPS 协议 。 

而 在 一 些 使 用 场景 中 , 需要 将 数据 整个 导出 , 在 第 三 方 系统 或 者 云 
上 进行 分 析 ， 在 该 种 场景 中 ,会 进行 数据 脱 敏 的 处 理 ， 对 某 些 敏感 信息 
通过 脱 敏 规则 进行 数据 的 变形 ,实现 敏感 隐私 数据 的 可 靠 保护 。 在 涉及 
客户 安全 数据 或 者 一 些 商业 性 敏感 数据 的 情况 下 , 在 不 违反 系统 规则 条 
件 下 ， 对 真实 数据 进行 改造 并 提供 测试 使 用 时 ， 如 身份 证 号 、 手 机 号 、 
卡号 、 客 户 号 等 个 人 信息 都 需要 进行 数据 脱 敏 。 


3. 访问 安全 


如 前 文 技术 安全 章节 中 所 叙述 , 应 用 系统 本 身 要 建立 健壮 的 认证 和 
访问 控制 机 制 ， 防 范 数 据 的 越权 访问 。 但 是 近 些 年 来 ， 屡 次 发 生 的 数据 
泄密 问题 ， 如 电话 号 码 、 住 址 信息 、 订 单 信息 ， 基 本 都 是 由 内 部 人 员 的 
泄露 造成 。 针 对 这 个 问题 ， 可 通过 建立 信息 的 追溯 系统 进行 解决 。 一 方 
面 , 通过 审计 手段 记录 员工 对 数据 的 详细 访问 操作 ; 另 一 方面 ,可 以 在 
数据 层面 加 上 水 印 , 这 样 通过 泄露 的 信息 可 以 很 容易 追查 到 是 哪个 员工 
进行 的 操作 。 

数字 水 印 技术 即 通 过 在 原始 数据 中 嵌入 秘密 信息 水 印 (watermark) 
来 证 实 该 数据 的 所 有 权 。 这 种 被 嵌入 的 水 印 可 以 是 一 段 文字 、 标 识 、 序 
列 号 等 , 而 且 这 种 水 印 通 常 是 不 可 见 或 不 可 擦 的 , 它 与 原始 数据 (如 图 
像 、 音 频 、 视 频数 据 ) 紧密 结合 并 隐藏 其 中 ， 并 可 以 经 历 一 些 不 破坏 源 
数据 使 用 价值 或 商用 价值 的 操作 而 能 保存 下 来 ,其 原理 如 图 5-2 和 图 5-3 
所 示 。 


EE 
— 

图 5-2 水 印信 号 的 嵌入 
[一 
pen 


图 5-3 水 印信 号 的 验证 


通过 水 印 方法 的 设置 , 每 个 员工 访问 到 的 数据 界面 上 都 有 一 层 肉眼 
无 法 看 到 的 信息 , 一 旦 该 界面 被 截图 或 者 以 拍摄 方式 泄露 出 去 , 通过 还 
原 算法 ， 就 可 以 确定 是 通过 哪个 员工 的 账号 泄露 的 。 


54 ”安全 威胁 
5.4.1 ”人 为 失误 


人 为 失误 (Human Error) 是 指 在 人 的 实际 操作 过 程 中 ， 由 于 人 本 


身 的 不 稳定 性 所 导致 的 错误 。 从 人 性 的 角度 来 说 ， 只 要 是 人 的 操作 ， 就 
有 可 能 存在 失误 。 在 核能 、 航 空 航天 、 医 疗 等 领域 ， 人 为 差错 的 发 生 会 
造成 严重 的 后 果 。 同 样 ， 在 IT 运 维 领域 ， 人 为 差错 也 可 能 带 来 系统 停 
止 服务 ， 业 务 中 断 等 不 良 影响 。 

近期 比较 著名 的 IT 运 维 的 人 为 失误 发 生 在 Gitlab, 一 个 负责 代码 版 本 
管理 的 开源 网 站 。2017 年 1 月 31 日 运 维 团队 成 员 在 处 理 问 题 的 过 程 中 ， 
决定 删除 目录 , 但 是 他 在 错误 的 机 器 上 执行 了 删除 命令 ， 出 问题 的 机 器 是 
db2.cluster.gitlab.com， 而 命令 实际 运行 在 dbl.clustergitlab.com 。 大 约 
300GB 的 数据 被 强制 删除 ， 只 剩 下 约 4.5GB。 该 事故 造成 Gitlab 丢失 了 6 
小 时 的 数据 库 数据 (问题 、 合 并 请 求 、 用 户 、 评 论 、 片 段 等 )， 且 无 法 找 回 。 

大 事故 极 少 是 由 一 个 原因 引起 的 , 而 是 由 许多 因素 像 链条 一 样 ， 把 
各 个 环节 连接 在 一 起 时 发 生 的 。“ 海 恩 法 则 ”表明 在 一 起 重大 事故 下 有 
29 起 事故 征 候 ， 而 且 在 其 下 面 还 有 300 起 事故 征 候 苗头 《严重 差错 )。 
虽然 人 为 差错 主要 是 由 人 自身 造成 ， 但 是 论 其 起 因 ， 可 以 从 人 、 环 境 、 
工具 、 流 程 4 个 方面 进行 总 结 ， 如 表 5-2 所 示 。 


表 5-2 人 为 失误 的 原因 


分 类 详细 内 容 
(D 厌倦 与 疏忽 
操作 人 员 对 工作 感到 无 聊 ， 没 有 成 就 感 ， 心 理 存在 抵触 情绪 ; 操 
作 人 员 对 工作 重要 性 意识 不 足 。 
(2) 疲劳 或 者 疾病 
操作 人 员 身 体 处 在 不 良 状 态 ， 注 意 力 无 法 正常 集中 ， 身 体 反应 较 
一 般 情况 变 慢 。 
(3) 知识 或 技能 缺乏 
人 自身 原因 | 操作 人 员 不 知道 ， 不 熟悉 ， 忘 记 正确 的 操作 方法 ;按照 自己 的 习 
惯 或 者 设想 的 操作 方法 去 操作 ;无 法 预见 操作 后 果 。 
OD 过 于 自信 
操作 人 员 对 自己 的 知识 能 力 过 于 自信 ， 可 能 做 违反 流程 的 操作 ， 
为 了 快 点 干 完 省 略 了 一 些 必要 的 步骤 ， 例 如 驾驶 事故 高 发 于 有 一 
定 驾 龄 的 司机 。 
CD 心理 压力 
过 度 担心 后 果 造 成 心理 压力 过 大 ， 精 神 处 于 亢奋 紧张 状态 
(6) 非常 规 事 件 
突 发 事件 , 操作 人 员 未 能 及 时 调整 状态 , 精神 处 于 紧张 亢奋 状态 ; 
环境 原因 对 突 发 事件 的 处 理 可 能 违反 常规 流程 ， 造 成 操作 风险 。 


(7) 外 界 刺激 
来 自 于 环境 的 刺激 较 多 或 者 更 换 了 新 环境 ， 使 操作 人 员 无 法 集中 
注意 力 





分 类 详细 内 容 

(8) 人 机 设计 不 合理 

不 方便 操作 人 员 使 用 , 难以 掌握 ; 工具 的 一 些 操作 本 身 容易 混淆 ， 
无 法 明显 区 分 。 

(9) 违反 标准 ， 或 者 无 统一 标准 

工具 原因 例如 一 般 的 汽车 都 是 刹车 在 左 , 油门 在 右 , 如 果 违 反 了 这 个 标准 ， 
或 者 这 个 标准 就 没有 统一 ， 则 很 有 可 能 形成 操作 风险 。 

(10) 工具 反常 

例如 工具 平时 的 响应 只 需要 1s, 但 是 在 某 些 情 况 下 变 成 了 5s， 等 
待 的 时 间 间 隔 可 能 打 乱 了 操作 人 员 的 节奏 感 ， 进 而 形成 操作 风险 
(11) 流程 烦琐 

操作 流程 步骤 繁多 ， 实 施 时 可 能 产生 遗漏 或 者 错误 。 

流程 原因 (12) 存在 交叉 作业 

流程 上 需要 操作 人 员 在 不 同 工 具 、 不 同 对 象 间 切换 操作 。 由 于 人 
思维 存在 惯性 ， 或 因 形成 的 条 件 反 射 造成 失误 


5.4.2 ”外 部 攻击 

1. 恶意 程序 

恶意 程序 是 未 经 授权 运行 的 、 怀 有 恶意 目的 、 具 有 攻击 意图 或 者 实 
现 恶意 功能 的 所 有 软件 的 统称 ， 其 表现 形式 有 很 多 : 计算 机 病毒 、 特 洛 
伊 木 马 程序 、 蠕 虫 、 僵 尸 程序 、 黑 客 工具 、 漏 洞 利用 程序 、 逻 辑 炸 弹 、 
间谍 软件 等 。 大 多 数 恶 意 程序 具有 一 定 程度 的 破坏 性 、 隐 蔽 性 和 传播 性 ， 
难以 被 用 户 发 现 , 会 造成 信息 系统 运行 不 畅 、 用 户 隐私 泄露 等 后 果 ， 严 
重 时 甚至 导致 重大 安全 事故 和 巨额 财产 损失 等 。2012 年 年 初 ， 信 息 安 
全 厂商 卡巴 斯 基 公 司 公开 透露 , 平均 每 天 检测 到 的 感染 网 银 木马 的 计算 
机 数量 为 2000 台 ， 平 均 每 天 新 添加 到 卡巴 斯 基 实 验 室 反 病 毒 数 据 库 的 
针对 敏感 金融 信息 的 恶意 程序 特征 高 达 780 个 , 占 卡 巴 斯 基 产品 每 天 检 
测 到 的 恶意 软件 总 数 的 1.1%。 


2. 网 络 入 侵 


网 络 入 侵 是 指 根据 信息 系统 存在 的 漏洞 和 安全 缺陷 , 通过 外 部 对 信 
息 系统 的 硬件 、 软 件 及 数据 进行 攻击 的 行为 。 网 络 攻击 的 技术 与 方法 有 
多 种 类 型 ， 通 常 从 攻击 对 象 入 手 ， 可 以 分 为 针对 主机 、 协 议 、 应 用 和 信 
息 等 的 攻击 .2014 年 4 月 7 日 ,OpenSSL 的 heartbleed 漏洞 被 公开 出 来 ， 
而 当时 Alexa 排名 前 百 万 的 网 站 中 有 32% 支 持 SSL， 据 研究 人 员 估 算 ， 





有 9% 的 网 站 会 受到 漏洞 影响 。 
3. 拒绝 服务 攻击 


拒绝 服务 攻击 (DoS) 即 攻 击 者 想 办 法 让 目标 机 器 停止 提供 服务 ， 
是 黑客 常用 的 攻击 手段 之 一 。 常 见 的 类 型 有 造成 网 络 带宽 的 耗 尽 ， 使 合 
法 用 户 无 法 正常 访问 服务 器 资源 的 攻击 。DDoS 攻击 手段 是 在 传统 的 
DoS 攻击 基础 之 上 产生 的 一 类 攻击 方式 。 单 一 的 Dos 攻击 一 般 是 采用 
一 对 一 方式 的 ， 当 被 攻击 目标 CPU 速度 低 、 内 存 小 或 者 网 络 带 宽 小 、 
各 项 性 能 指标 不 高 时 ， 它 的 效果 是 明显 的 。 随 着 计算 机 与 网 络 技术 的 发 
展 ， 计 算 机 的 处 理 能 力 迅 速 增长 ， 内 存 大 大 增加 ， 同 时 也 出 现 了 千 兆 级 
别 的 网 络 ， 这 使 得 DoS 攻击 的 困难 程度 加 大 。 此 时 ， 分 布 式 的 拒绝 服 
务 攻 击 手段 (DDoS) 就 应 运 而 生 ， 攻 击 者 利用 更 多 的 主机 来 发 起 进攻 ， 
以 更 大 的 规模 来 进攻 受害 者 ， 使 被 攻击 的 主机 不 能 正常 工作 。 


4. 社会 工程 


为 获取 讯息 ， 利 用 社会 科学 ,尤其 心理 学 、 语 言 学、 欺诈 学 将 其 进 
TRA, 有 效 地 利用 人 性 的 弱点 , 并 以 最 终 获 得 信息 为 最 终 目的 学 科 称 
为 “社会 工程 学 ”(Social Engineering)。 社 会 工程 学 中 比较 知名 的 案例 
是 网 络 钓鱼 ,通过 大 量 发 送 声 称 来 自 于 银行 或 其 他 知名 机 构 的 欺骗 性 垃 
圾 邮件 ， 意 图 引诱 收 信 人 给 出 敏感 信息 (如 用 户 名 、 口 令 、 账 号 ID. 
ATMPIN 码 或 信用 卡 详细 信息 ) 的 一 种 攻击 方式 。 最 典型 的 网 络 钓鱼 攻 
击 是 将 收 信 人 引诱 到 一 个 通过 精心 设计 与 目标 组 织 的 网 站 非常 相似 的 
钓鱼 网 站 上 , 诱 使 并 获取 收 信 人 在 此 网 站 上 输入 个 人 敏感 信息 , 通常 这 
个 攻击 过 程 不 会 让 受害 者 警觉 。 网 络 钓鱼 网 站 被 仿冒 的 大 都 是 电子 商务 
网 站 、 金 融 机 构 网 站 、 第 三 方 在 线 支 付 站 点 、 社 区 交友 网 站 等 。 


5.4.3 ”信息 泄密 


信息 泄露 是 信息 安全 的 重大 威胁 , 国内 外 都 发 生 过 大 规模 的 信息 泄 
露 事 件 。 

2015 年 2 月 ， 国 内 多 家 酒店 的 网 站 出 现 高 危 漏 洞 ， 房 客 开房 信息 
大 量 泄露 , 一 览 无 余 , 黑客 可 轻松 获取 到 千 万 家 的 酒店 顾客 的 订单 信息 ， 
包括 顾客 姓名 、 身 份 证 、 手 机 号 、 房 间 号 、 房 型 、 开 房 时 间 、 退 房 时 间 、 
家 庭 住址 、 信 用 卡 后 四 位 、 信 用 卡 截止 日 期 、 邮 件 等 大 量 敏感 信息 。 

2016 年 5 月 ， 位 于 美国 纽约 的 轻 博客 网 站 Tumblr 账户 信息 泄露 ， 


涉及 的 邮箱 账号 和 密码 达 65469298 个 。 由 于 一 般 用 户 在 互联 网 上 习惯 
使 用 相同 账号 和 密码 , 一 旦 一 个 网 站 的 账号 遭 到 泄露 其 他 网 站 会 受到 
撞 库 攻击 ， 造 成 更 大 规模 的 信息 泄露 。 

除了 外 部 攻击 的 泄密 外 , 一 些 企业 的 内 部 员工 利用 能 接触 到 数据 的 
便利 ， 将 数据 导出 后 ， 非 法 在 黑市 上 贩卖 件 利 。 这 些 数据 被 贩卖 后 ， 会 
被 黑客 或 者 其 他 不 法 分 子 利 用 ， 借 助 社会 工程 学 ， 对 受害 者 进行 诈骗 。 


5.4.4 灾害 


灾害 发 生 的 概率 非常 小 , 但 是 后 果 是 巨大 的 ， 可 能 会 造成 整个 数据 
中 心 停止 运行 。 

COD 洪灾 

由 于 恶劣 天 气 和 排水 不 畅 ， 可 能 会 造成 水 倒灌 进 数据 中 心 , 造成 设 
备 短路 等 故障 。2009 年 9 月 9 日 ， 土 耳 其 伊斯坦布尔 遭遇 暴雨 并 引发 
了 洪水 。 疯 狂 肆 虐 的 洪水 淹没 了 该 市 Ikitelli 区 的 大 部 分 地 段 ， 也 淹没 
了 位 于 该 区 的 Vodafone 数据 中 心 。 

(2) 火灾 

2008 Æ 3 H 19 H, 美国 威斯康辛 数据 中 心 被 火烧 得 一 塌 糊 涂 。 根 
据 事 后 统计 ， 这 次 大 火 已 经 烧 掉 了 75 台 服 务 器 、 路 由 器 和 交换 机 ， 当 
地 大 量 的 站 点 都 发 生 了 瘫痪 。 

(3) 地 震 

2011 4£ 3 H 11 H, 日 本 遭受 了 9 级 大 地 震 。 在 此 次 地 震中 ， 日 本 
东京 的 IBM 数据 中 心 也 受 损 严重 。 

(4) 人 为 因素 

2015 年 5 月 27 日 下 午 5 点 左右 ， 由 于 光纤 被 挖 断 ， 造 成 部 分 用 户 
无 法 使 用 支付 宝 。 随 后 支付 宝 工程 师 紧急 将 用 户 请 求 切换 至 其 他 机 房 ， 
受 影响 的 用 户 才 逐 步 恢 复 。 

2001 ££9 H 11 日 ,纽约 发 生 恐 怖 袭击 ， 随 着 世贸 大 厦 的 倒塌 ， 金 
融 机 构 聚 集 的 世贸 大 厦 里 的 大 量 数据 化 为 乌有 。 


55 ”安全 措施 
5.5.1 安全 制度 规范 
政府 、 企 业 以 及 其 他 组 织 一 般 会 制定 内 部 的 信息 安全 相关 制度 , 用 





以 约束 管理 内 部 的 各 项 工作 ， 保 障 安全 运行 ， 一 般 包括 以 下 内 容 。 

a) ARHAR 

人 员 组织 用 以 明确 各 级 人 员 对 于 信息 安全 的 责任 和 义务 , 明确 信息 
安全 的 领导 机 构 和 组 织 形式 。 

(2) 行为 安全 

行为 安全 用 以 明确 每 个 人 在 组 织 内 部 允许 和 禁止 的 行为 。 

(3) 机 房 安 全 

机 房 安 全 制度 明确 出 入 机 房 、 上 架设 备 所 必须 遵守 的 流程 规范 。 

(4) 网 络 安全 

网 络 安全 制度 明确 组 织 内 部 的 网 络 区 域 划 分 , 以 及 不 同 网 络 的 功能 
和 隔离 措施 。 

(5) 开发 过 程 安全 

开发 过 程 安全 制度 明确 软件 的 开发 设计 和 测试 遵守 相关 规范 , 开发 
和 运 维 分 离 ， 源 代码 和 文档 应 落地 保存 。 

(6) 终端 安全 

终端 安全 制度 明确 终端 设备 的 使 用 范围 ， 禁 止 私 自修 改 终端 设备 ， 
应 设置 终端 口令 ， 及 时 锁 屏 ， 及 时 更 新 操作 系统 补丁 等 。 

CD 数据 安全 

数据 安全 制度 不 对 外 传播 敏感 数据 , 生产 数据 的 使 用 需要 在 监督 和 
授权 下 执行 。 

(8) 口令 安全 

明确 口令 的 复杂 程度 、 定 期 修改 的 时 间 等 。 

CO) 临时 人 员 的 管理 

明确 非 内 部 员工 的 行为 列表 、 外 包 人 员 的 行为 规范 ， 防 范 非法 入 侵 。 


5.5.9 安全 防范 措施 


在 各 个 层次 都 有 成 熟 的 安全 产品 , 可 以 供 选择 来 构建 组 织 内 部 的 防 
御 体 系 ， 如 表 5-3 所 示 。 
表 5-3 安全 产品 层次 











分 类 安全 产品 
机 房 门禁 系统 ， 消 防 系 统 ， 摄 像 系统 

服务 器 防 病毒 软件 ， 漏 洞 扫描 工具 ， 配 置 核查 系统 
网 络 防火 墙 ， 入 侵 监测 系统 ， 入 侵 防御 系统 





终端 防 病毒 软件 ， 行 为 控制 和 审计 软件 ， 堡 垒 机 


分 类 安全 产品 

漏洞 扫描 工具 ， 源 代码 扫描 软件 ， 证 书 管理 系统 ， 统 一 认证 系统 ， 
身份 管理 系统 

数据 备份 | 数据 备份 软件 


流程 管理 | 运 维 管理 平台 ， 安 全 管理 平台 ， 审 计 平 台 


可 以 组 织 内 外 部 资源 ， 定 期 对 系统 进行 扫描 或 者 进行 渗透 性 测试 ， 
发 现 并 且 消 除 系统 中 的 安全 风险 点 。 

在 组 织 团队 时 和 新 员工 入 职 时 , 就 对 所 有 的 开发 人 员 进 行 针对 性 的 
安全 培训 ,强化 安全 编码 和 信息 安全 的 意识 。 有 不 少 人 认为 信息 安全 主 
要 是 产品 角度 考虑 的 事情 ， 只 要 使 用 了 安全 的 技术 ， 例 如 HTTPS， 就 
可 以 避免 一 切 安全 问题 的 发 生 。 但 其 实 不 然 , 例如 图 5-4 就 展示 了 一 种 
针对 SSL 的 中 间 人 攻击 ， 利 用 该 攻击 模式 ， 可 以 破解 或 者 修改 传输 内 
容 ， 也 可 以 让 客户 端 做 的 输入 过 滤 失 效 。 





应 用 程序 
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图 5-4 SSL 中 间 人 攻击 


制定 的 安全 制度 规范 需要 严格 执行 , 在 制度 中 禁止 的 行为 绝对 不 能 
因为 技术 因素 或 者 时 间 因素 忽略 了 执行 ， 从 而 产生 严重 的 后 果 。 


5.6 ”作业 与 练习 


一 、 问 答题 

简 述 SQL 注入 的 基本 原理 ， 如 何 避 免 SQL 注入 ? 

门禁 系统 分 为 哪 几 种 认证 方式 ? 

安全 开发 包含 哪 几 项 主要 措施 ? 

判断 题 

1l. 安全 中 的 完整 性 指 的 是 计算 机 服务 时 间 内 ， 确 保 服务 的 可 用 。 
2. 视频 监控 重点 是 实时 监控 ， 一 般 不 需要 存档 。 

3， 跨 站 脚本 〈XSS) 漏洞 的 原因 是 因为 缺少 强壮 的 认证 措施 。 


IS Ny 
rm mt 





4. 健壮 的 输入 和 输出 过 滤 可 以 大 大 降低 Web 应 用 受 攻击 的 风险 。 
5. 开发 过 程 中 的 漏洞 只 能 通过 修改 代码 规避 ， 其 他 方式 都 不 可 行 。 
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高 可 用 性 管理 


如 果 一 个 系统 经 常 出 现 故 障 , 无 法 连续 对 外 提供 服务 , 会 大 大 影响 
实际 使 用 效果 。 保持 服务 的 稳定 性 是 系统 运 维 中 的 重要 工作 ,大 数据 系 
统 也 不 例外 。 在 系统 设计 、 具 体 实 施 以 及 后 期 维护 中 ， 都 需要 考虑 到 高 
可 用 性 (High Availability) 相关 的 管理 工作 。 

本 章 通过 对 系统 高 可 用 技术 进行 介绍 ， 并 结合 大 数据 系统 的 特点 ， 
从 系统 架构 、 容 灾 、 监 控 和 故障 转移 角度 进行 具体 的 分 析 和 阅 述 ， 最 后 
从 业务 连续 性 管理 入 手 , 对 灾 备 系统 建设 、 应 急 预案 和 日 常 演练 进行 归 
纳 和 经 验 分 享 。 


6.31 高 可 用 性 概述 


衡量 系统 运行 稳定 性 的 关键 指标 是 系统 的 可 用 性 , AT AYE (availability) 
指 的 是 系统 的 无 故障 运行 时 间 的 百分比 , 计算 公式 为 : 无 故障 运行 时 间 
/计划 对 外 服务 时 间 x100%。 

例如 一 个 系统 计划 是 24 小 时 每 天 不 间断 提供 服务 ， 一 年 的 计划 对 
外 服务 时 间 是 24x365=8760 小 时 ,结果 在 一 年 的 运行 时 间 中 , 因为 故障 
或 者 变更 中 断 了 10 小 时 ， 则 系统 可 用 性 就 是 (8760-10)/8760x100%= 
99.89%。 业 界 通 俗 的 叫 法 用 N 个 9 来 量化 可 用 性 ， 例 如 ， 可 用 性 达到 
了 3 个 9， 则 指 的 是 可 用 性 大 于 99.9%， 小 于 99.99%. 

为 了 保证 系统 有 较 高 的 可 用 性 ， 需 要 采取 一 些 高 可 用 (HA, High 
Availability) 技术 来 减少 故障 中 断 时 间 。 高 可 用 技术 的 核心 思想 是 元 余 ， 
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即 关 键 部 件 要 不 止 一 个 , 在 原 部 件 故障 或 者 维修 时 ， 备 用 的 零 部 件 要 能 
顶替 原 有 部 件 的 作用 。 在 机 房 环 境 、 网 络 、 主 机 、 存 储 、 数 据 库 、 应 用 
程序 层面 ， 都 有 这 类 思想 的 设计 。 而 与 此 对 应 的 ， 单 点 故障 是 影响 可 用 
性 的 关键 风险 点 , 在 设计 和 实施 过 程 中 , 要 不 断 识别 系统 中 存在 的 单 点 
故障 ， 了 予以 消除 ， 增 加 系统 的 整体 可 用 性 。 除 了 部 件 元 余 之 外 ， 及 时 对 
故障 进行 监控 识别 , 通过 自动 化 或 者 人 工 方式 解决 故障 , 缩短 故障 时 间 ， 
也 是 增加 可 用 性 的 有 效 途径 。 

当 发 生 大 规模 故障 时 , 如 机 房 整 体 电力 故障 , 对 外 网 络 被 物理 切断 ， 
在 一 定 区 域内 的 部 件 元 余 也 失效 ， 此 时 就 需要 考虑 容 灾 相 关 的 方案 。 通 
过 在 其 他 物理 区 域 的 数据 中 心 建立 备份 系统 , 例如 同城 备份 或 者 异地 备 
份 ， 可 以 避免 此 类 灾难 对 可 用 性 的 影响 。 


6.2 高 可 用 性 技术 

6.2.1 系统 架构 
1. 机 房 环境 
机 房 环境 的 高 可 用 主要 考虑 的 是 电力 和 机 柜 分 配 两 方面 。 
(1) 电力 


规格 较 高 的 机 房 , 会 考虑 从 两 路 变电站 取得 电力 , 不 会 受 区 域 电力 
停止 造成 断 电 的 风险 , 同时 配备 柴油 发 电机 和 UPS， 当 两 路 电 都 出 现 故 
障 时 ， 先 通过 UPS 进行 供电 ， 然 后 柴油 发 电机 启动 ， 为 UPS 提供 持续 
电力 ， 确 保 电力 不 会 出 现 中 断 。 

(2) BUE 

如 果 在 主机 层面 安排 了 主 备 机 ,那么 主 备 机 在 具体 放置 时 ， 最 好 分 
开 不 同 的 机 柜 安 装 ， 避 免 单一 机 柜 故 障 对 主机 的 影响 。 


2. 网 络 、 主 机 、 存 储 


网 络 是 数据 中 心 的 核心 ， 在 现代 IT 系统 中 ， 没 有 了 网 络 ， 计 算 能 
力 就 没有 了 用 武之 地 。 在 数据 中 心 的 内 部 网 络 ， 交 换 机 /路 由 器 /防火 墙 
都 采用 双 机 模式 ， 一 台 故 障 ， 另 外 一 台 能 够 迅速 接替 ， 提 供 网 络 服务 ; 
在 数据 中 心 外 部 的 出 口 网 络 , 一 般 都 会 考虑 采用 两 家 不 同 的 网 络 运营 商 
提供 服务 ， 在 具体 物理 线路 的 铺设 上 ， 尽 量 从 不 同 的 管道 中 走 线 ， 避 免 
单一 线路 或 者 单一 运营 商 的 故障 。 

主机 是 高 可 用 方案 中 的 主要 部 分 , 按照 工作 模式 , 主机 层面 的 高 可 
用 技术 可 分 为 以 下 几 种 。 
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(1) 主 从 模式 

主机 工作 ， 备 机 处 于 监控 准备 状况 ; 当主 机 宕 机 时 ， 备 机 接管 主机 的 
一 切 工作 , 待 主机 恢复 正常 后 ， 按 使 用 者 的 设 定 以 自动 或 手动 方式 将 服 
务 切换 到 主机 上 运行 , 数据 的 一 致 性 通过 共享 存储 系统 解决 。 主 从 服务 
器 有 各 自 的 IP 地 址 ， 通 过 HA 集群 软件 控制 ， 主 从 服务 器 有 一 个 共同 的 
虚拟 IP 地址， 客户 端 仅 需 使 用 这 个 虚拟 IP， 而 不 需要 分 别 使 用 主 从 人 P 地 
址 。 这 种 措施 是 HA 集群 的 首要 技术 保证 ， 该 技术 确保 集群 服务 的 切换 不 
会 影响 客户 IP 层 的 访问 。 公 网 (Public Network) 是 应 用 系统 实际 提供 服 
务 的 网 络 ， 私 网 (Private Network) 是 集群 系统 内 部 通过 心跳 线 连接 成 的 
网 络 。 心 跳 线 是 HA 集群 系统 中 主 从 节点 通信 的 物理 通道 ， 通 过 HA 集群 
软件 控制 确保 服务 数据 和 状态 同步 。 不 同 HA 集群 软件 对 于 心跳 线 的 处 理 
有 各 自 的 技巧 ， 有 的 采用 专用 板 卡 和 专用 的 连接 线 ， 有 的 采用 串 并 口 或 
USB 口 处 理 ， 有 的 采用 TCP/IP 网 络 处 理 ， 其 可 靠 性 和 成 本 都 有 所 不 同 。 

(2) 双 机 模式 

两 台 主 机 同时 运行 各 自 的 服务 工作 且 相 互 监测 情况 , 当 任 一 台 主 机 
宕 机 时 ， 另 一 台 主 机 立即 接管 它 的 一 切 工作 ， 保 证 工作 实时 以 及 应 用 服 
务 系统 的 关键 数据 存放 在 共享 存储 系统 中 。 

(3) 集群 模式 

多 台 主 机 一 起 工作 , 各 自 运行 一 个 或 几 个 服务 , 各 为 服务 定义 一 个 
或 多 个 备用 主机 ， 当 某 个 主机 故障 时 , 运行 在 其 上 的 服务 就 可 以 被 其 他 
主机 接管 。 

在 现 阶段 ， 存 储 是 比较 昂贵 的 设备 ， 其 本 身 部 件 就 有 元 余 ， 如 控制 
器 、 电 源 模块 等 ， 本 身 的 可 用 性 较 PC 服务 器 要 高 ， 在 一 般 的 方案 中 ， 
可 以 接受 单 存储 的 方案 。 如 果 对 可 用 性 要 求 更 高 ， 且 不 把 成 本 作为 重要 
考虑 因素 ， 可 以 考虑 使 用 双 存 储 方案 ， 数 据 在 写 入 时 ， 通 过 操作 系统 或 
者 存储 提供 的 技术 同时 写 入 两 份 存储 设备 。 


3. 数据 库 
在 数据 库 领 域 , 有 一 些 经 典 的 高 可 用 技术 , 不 同 产品 在 原理 和 实现 
上 都 略 有 区 别 ， 如 表 6-1 所 示 。 
表 6-1 常见 的 数据 库 高 可 用 技术 


技术 概 x 
MySQL Replication | 通过 异步 复制 多 个 数据 文件 以 达到 提高 可 用 性 的 目的 





分 别 在 SQL 处 理 和 存储 两 个 层次 上 做 高 可 用 的 复制 策略 。 
在 SQL 处 理 层次 上 ， 比 较 容易 做 集群 ， 因 为 这 些 SQL 处 
MySQL Cluster 理 是 无 状态 性 的 ， 完 全 可 以 通过 增加 机 器 的 方式 增强 可 用 
性 。 在 存储 层次 上 ， 通 过 对 每 个 节点 进行 备份 的 形式 增加 
存储 的 可 用 性 ， 这 类 似 于 MySQL Replication 
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续 表 
mo x 
要 集中 在 SQL 处 理 层 的 高 可 用 性 ， 而 在 存储 上 体现 不 多 
优点 就 是 对 应 用 透明 , 并 且 通 过 Heartbeat 检测 可 用 性 非常 
高 ， 主 要 缺点 就 是 存储 是 共享 的 ， 存 储 上 可 扩展 能 力 不 足 
主要 提供 存储 的 可 扩展 性 ， 通 过 自动 化 的 存储 管理 加 上 后 
端 可 扩展 性 的 存储 阵列 达到 高 可 用 性 


Oracle RAC 





Oracle ASM 





4. 应 用 


在 实现 某 个 特定 功能 点 时 , 应 用 程序 可 以 通过 多 个 实例 完成 该 功能 
的 服务 , 例如 一 个 处 理 用 户 登 录 的 模块 , 可 以 通过 部 署 运行 多 个 功能 相 
同 的 进程 , 不 同 的 用 户 登 录 时 通过 负载 均衡 设备 , 发 送 给 不 同 的 进程 进 
行 处 理 ， 当 一 个 进程 实例 发 生 故 障 时 ， 其 他 进程 仍 可 以 继续 服务 。 

通过 持久 化 队列 的 技术 ， 将 应 用 之 间 的 交互 的 数据 保存 在 队列 中 
即使 进程 故障 ， 数 据 也 不 会 丢失 ， 在 启动 之 后 可 以 立即 恢复 。 

在 应 用 程序 去 访问 外 部 的 各 种 资源 时 ， 如 数据 库 、 文 件 系 统 、 其 他 
应 用 程序 ， 需 要 注意 的 是 在 配置 时 需要 配置 外 部 资源 的 服务 地 址 ， 如 应 
用 程序 访问 数据 库 ， 必 须要 配置 数据 库 的 RAC 服务 地 址 ， 这 样 在 数据 
库 出 现 问 题 时 ,服务 器 地 址 会 自动 切换 到 正常 设备 上 运行 , 保证 应 用 程 
序 还 能 够 访问 到 数据 库 资 源 。 如 果 配 置 了 真实 地 址 ， 当 该 地 址 指向 的 资 
源 发 生 故障 时 ， 服 务 就 会 出 现 异 常 ， 无 法 自动 恢复 。 


6.2.2 BR 


一 般 情 况 下 ， 谈 到 高 可 用 技术 时 ， 讨 论 的 范围 都 是 在 数据 中 心 内 部 的 
各 种 保障 技术 ,但 当 数 据 中 心 整体 发 生 故 障 ， 或 者 称 之 为 灾难 时 ， 就 需要 
依靠 容 灾 技术 ， 在 6.3 节 的 业务 连续 性 管理 中 会 详细 阐述 该 内 容 。 


6.2.3 监控 


在 应 用 了 高 可 用 技术 ,建设 了 各 个 层次 的 元 余 模块 之 后 ， 还 有 一 个 
重要 的 步骤 就 是 ， 探 测 哪些 模块 出 现 了 故障 ， 然 后 对 故障 进行 人 工 处 理 
或 者 自动 处 理 ， 这 个 过 程 必 须要 依靠 监控 机 制 。 监控 的 3 块 主要 内 容 就 
是 : 收集 信息 ， 根 据 信 息 判 断 是 否 是 问题 ， 产 生 告警 或 者 自动 处 置 。 
在 实际 的 生产 运 维 中 , 像 人 的 体检 一 样 ， 需 要 大 量 的 监控 项 来 对 系 
统 运行 情况 做 出 综合 判断 ， 对 故障 发 生 点 进行 精确 定位 。 表 6-2 列举 了 
些 常 见 的 监控 指标 项 和 告警 策略 。 





监控 类 别 


应 用 自身 状态 





监控 指标 


服务 进程 状况 


服务 状态 


业务 开关 或 可 
使 用 标志 状态 











表 6-2 ”监控 指标 项 

监控 内 容 
© 对 应 用 系统 启动 后 进程 进行 监控 ， 主 要 包 
括 进 程 正常 情况 ， 进 程 名 称 、 数 量 情况 ， 僵 死 
进程 情况 ; 
Q 不 同 服务 器 、 不 同 用 户 的 进程 在 设 定时 间 
范围 内 是 否 启动 ， 如 07:00 一 19:00， 有 一 个 进 
程 缺失 ; 
@ 是 否 在 错误 的 时 间 启 动 。 如 批 处 理 结束 后 ， 
进程 应 该 停止 ， 但 仍 在 启动 状态 ; 
@ 是 否 在 错误 的 位 置 启动 。 如 正常 没有 发 生 
切换 时 ， 进 程 都 在 主 服务 器 上 启动 ， 但 是 监控 
发 现 进 程 在 备 机 也 启动 了 ; 或 者 发 现 进程 是 在 
root 用 户 下 启动 的 ; 
© 进程 启动 耗 时 监控 。 进 程 如 果 启 动 较 慢 ， 
说 明 数 据 或 者 环境 出 现 问 题 ， 需 要 监控 ; 
应 用 系统 整体 启动 停止 时 间 监 控 
监控 应 用 进程 所 实现 的 某 项 服务 是 否 处 在 健 
康 状态 。 可 通过 调用 应 用 服务 接口 判断 应 用 服 
务 是 否 正 常 ， 要 求 访 问 接口 不 会 污染 数据 ， 不 
会 影响 应 用 业务 。 系 统 能 处 理 登 录 、 写 入 、 查 
询 、 访 问 网 页 等 来 检查 应 用 系统 是 否 可 用 。 具 
体 监控 内 容 如 下 : 
(D 应 用 系统 可 以 登录 ; 
@ Web 页 面 能 正常 访问 ; 
@ 系统 能 处 理事 务 ; 
@ 系统 查询 功能 有 效 ; 
(5 Web Service 能 正常 调用 ; 
© 消息 、 数 据 和 文件 正常 传输 或 同步 ， 涉 及 
上 下 游 系统 、 与 第 三 方 机 构 接口 、 主 备 服务 器 
(a) 
C) 应 用 数据 库 可 读 可 写 ; 
应 用 之 间 心 跳 机 制 正常 ; 
@ 能 够 记录 应 用 系统 开启 、 失 败 时 间 ; 
à) 上 下 游 系统 之 间 可 访问 (数据 库 方式 、 消 
息 通道 、FTP 通道 等 ) 
在 应 用 服务 时 期 内 ， 监 控 应 用 系统 业务 开关 或 
可 使 用 标志 状态 ， 确 定 应 用 系统 是 否 可 以 提供 
服务 
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续 表 

监控 内 容 
凡是 涉及 数据 加 载 和 批量 处 理 的 应 用 系统 , 尤其 
是 报表 统计 分 析 类 系统 ， 对 数据 加 载 和 下 发 的 及 
时 性 、 批 量 完 成 的 时 间 点 都 会 有 一 定 的 要 求 。 
应 根据 预先 设 定 的 阔 值 对 数据 加 载 和 批量 完 
成 及 时 性 进行 监控 和 报警 ， 以 便 生产 管理 和 维 
护 单位 提前 通知 业务 部 门 ， 并 且 采 取 应 急 措 施 
降低 业务 影响 
由 于 应 用 系统 耦合 度 较 高 ， 上 下 游 应 用 系统 及 
前 后 项 批量 形成 了 一 个 前 后 依赖 甚至 相互 依 
赖 的 关系 ， 处 于 关键 路 径 的 数据 生成 或 处 理 步 
又 如 果 延 迟 ， 将 对 后 续 批量 、 下 游 应 用 系统 产 
生 重 大 影响 ， 因 此 ， 有 必要 对 关键 路 径 上 数据 
生成 〈 批 量 ) 时 间 进 行 监控 ， 以 便 及 时 采取 措 
施 减 少 可 能 的 业务 影响 。 
具体 包括 : 关键 〈 批 量 ) 数据 的 开始 时 间 、 完 成 
时 间 及 处 理 时 间 、 关 键 数据 的 下 发 和 到 达 时 间 
批量 数据 是 否 完整 、 正 确 直接 关系 到 对 客户 服 
务 质量 甚至 应 用 系统 能 否 提供 服务 。 
(D 批量 处 理 前 、 后 〈 下 发 ) 数据 种 类 是 否 齐 
全 、 数 据 文件 大 小 是 否 在 正常 范围 ; 
@ 数据 正确 性 监控 是 对 重要 的 关键 数据 的 值 
是 否 在 正常 范围 内 进行 监控 ， 一 旦 发 生 数 据 突 
变 及 时 报警 
关键 表 作 为 应 用 系统 的 重要 属性 之 一 ， 关 键 表 
中 记录 数 的 变化 应 作为 应 用 系统 业务 发 展 和 
应 用 系统 运行 的 重要 评价 指标 之 一 ， 通 过 关键 
表 记 录 量 变化 情况 分 析 ， 能 及 时 了 解 业务 服务 
状况 、 业 务 变化 情况 以 及 应 用 系统 运行 情况 。 
O 日 常情 况 下 需要 每 日 对 应 用 系统 关键 表 记 
录 变 化 量 进行 统计 ; 
@ 对 关键 表 记 录 量 监控 时 ， 要 求 在 关键 表 记 
录 量 突然 发 生 较 大 变化 时 报警 
关键 业务 数据 是 否 按 预期 生成 和 发 布 ， 监 控 方 
式 包 括 : 
© 数据 库 中 有 预期 数据 产生 。 
Q Web 页 面 有 符合 预期 的 数据 显示 。 
@ 接收 到 预期 消息 。 
© 接收 到 预期 文件 


数据 关键 路 径 


数据 服务 


数据 完整 性 、 
正确 性 
关键 表 记录 变 
化 情况 


关键 业务 数据 
获取 、 生 成 和 
发 布 





监控 类 别 


数据 服务 


监控 指标 


关键 数据 按 预 
期 清空 








监控 内 容 
监控 数据 按 预期 被 清空 ， 监 控 内 容 包括 : 
© 数据 库 中 有 符合 预期 的 数据 清空 。 
@ Web 页 面 有 符合 预期 的 数据 清空 。 
@ 消息 队列 文件 清除 , 如 IMIX 清除 消息 队列 
文件 





性 能 容量 





用 户 数量 〈 终 
端 /API) 


内 存 加 载 量 


消息 并 发 量 


事务 响应 时 间 





在 线 用 户 数量 指 应 用 系统 当前 使 用 该 应 用 的 
用 户 总 量 。 一 方面 在 线 用 户 量 突然 变 大 ， 可 能 
造成 系统 性 能 问题 ， 另 一 方面 在 线 用 户 量 突然 
变 大 也 可 能 是 由 于 应 用 系统 异常 造成 。 因 此 ， 
要 对 在 线 用 户 数量 及 时 监控 报警 ， 及 时 提醒 相 
关 维 护 人 员 进 行 处 理 分 析 。 

O 在 线 用 户 数 〈 某 段 时 间 内 访问 系统 的 用 户 
数 ， 这 些 用 户 并 不 一 定 同时 向 系统 提交 请 求 ); 
© 并 发 用 户 数 〈 某 一 物理 时 刻 同时 向 系统 提 
交 请 求 的 用 户 数 ); 

@ 单位 时 间 内 用 户 登 录 次 数 ; 

© 平均 /峰值 用 户 数 ; 

@ 日 常情 况 下 需 每 日 对 应 用 系统 登录 用 户 数 
进行 统计 ， 以 计算 用 户 活跃 程度 

使 用 共享 内 存 机 制 的 应 用 系统 需要 监控 内 存 
数据 加 载 量 ， 如 加 载 量 突然 变 大 ， 可 能 造成 系 
统 出 现 风险 。 如 本 币 交易 系统 共享 内 存 中 加 载 
了 大 量 的 本 币 基础 数据 (债券 、 机 构 、 权 限 等 
消息 并 发 量 指 应 用 系统 某 个 (类 ) 事务 在 一 定时 
间 段 内 并 发 处 理 量 。 事务 并 发 量 又 然 变 大 可 能 造 
成 此 类 事务 处 理 缓慢 甚至 造成 整个 应 用 系统 性 
能 问题 ; 事务 并 发 量 突然 变 大 或 者 突然 变 小 也 可 
能 是 由 于 应 用 系统 异常 造成 。 通 过 对 事务 并 发 量 
监控 报警 ， 及 时 让 维护 人 员 进 行 处 理 分 析 。 

CD 单位 时 间接 收 到 的 事务 请 求 数 ， 超 过 阔 值 
报警 ; 

@ 单位 时 间 段 内 每 个 会 话 接收 和 发 送 的 消息 
数量 

事务 响应 时 间作 为 应 用 系统 提供 服务 效率 的 
重要 衡量 指标 之 一 ， 事 务 响 应 缓慢 意味 着 提供 
业务 服务 效率 存在 问题 ， 应 用 系统 可 能 存在 隐 
含 、 潜 在 运行 风险 。 应 当 设 定 事务 响应 时 间 阔 
值 ， 处 理 缓慢 的 事务 需要 及 时 报警 。 

( 关键 事务 处 理 时 间 ， 设 定 阔 值 ， 如 查询 处 
理 时 间 超 过 则 报警 

Q 每 个 会 话 接收 和 发 送 方向 的 消息 延迟 
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监控 类别 


批量 作业 


BR 
监控 内 容 
监控 批量 处 理 情况 。 
批量 处 理 情况 | @ 批量 中 断 情况 ; 
@ 批量 错误 信息 监控 





批量 开始 时 间 | 批量 处 理 开始 时 间 ， 超 过 预定 时 间 报 警 





批量 结束 时 间 | 批量 处 理 结束 时 间 ， 超 过 预定 时 间 报 警 





批量 加 载 时 间 | 数据 加 载 时 间 ， 超 过 预定 时 间 报 警 





批 处 理 状态 对 批 处 理 状态 进行 监控 





应 用 占用 系 
统 资源 


应 用 中 间 件 
(WebLogic、 
Tomcat) 


文件 句柄 数 进程 加 载 或 访问 的 文件 数 ， 超 过 闵 值 报警 





应 用 分 区 空间 | 空闲 率 超 阔 值 、 增 长 率 超 阔 值 报警 

O 监控 (单个 ) 日 志文 件 量 增长 (绝对 值 、 
应 用 文件 增长 | 文件 增长 量 ) 情况 ; 

情况 Q 监控 (单个) 应 用 队列 文件 增长 情况 ; 

@ 监控 (单个 ) 业务 文件 增长 情况 

(D 与 其 他 提供 服务 的 应 用 系统 网 络 连接 状 
态 、 通 信和 链接 数 。 

© 半 关 闭 网 络 状态 连接 。 

© 客户 端 发 起 的 通信 链接 ,在线 /并 发 /峰值 通 
信和 链接 数 、 网 络 连接 状态 进行 监控 。 

© 服务 端口 。 服 务 端口 监听 (Listen) 


并 发 会 话 数 、 文 件 句柄 、 网 络 连接 、 数 据 库 连 
接 数 、CPU、 内 存 、 磁 盘 等 


® 运行 状态 。 如 果 不 是 RUNNING 状态 ， 则 
报警 ， 并 将 实际 运行 状态 在 报警 内 容 中 体现 ; 
© 健康 状态 。 如 果 不 是 HEALTH_OK 状态 , Wl 
报警 ， 并 将 服务 器 健康 状态 在 报警 内 容 中 体现 ; 
@ 进程 假死 。 如 发 现 则 报警 


单个 用 户 或 请 
求 进程 占用 的 
系统 资源 








© 健康 状态 (Health State ) 。 如 果 不 是 
HEALTH OK 状态 ， 则 报警 ， 并 将 线程 池 健康 
状态 在 报警 内 容 中 体现 ; 

© 占 挂 用 户 请 求 数 ( Pending User Request 
Count)。 如 果 大 于 指定 值 ， 则 报警 ， 并 且 将 占 
挂 用 户 请 求 数 在 报警 内 容 中 体现 ; 

图 活动 执行 线程 数 /允许 创建 的 最 大 线程 数 比 
Bl, KF RWIS: 

图 短 时 间 内 WebLogic 执行 线程 数 突然 增加 很 
多 数量 ， 报 警 ; 

© WebLogic 总 空闲 线程 数 /最 大 线程 数 比例 
持续 较 低 ， 报 警 ; 


监控 类 别 


应 用 中 间 件 
(WebLogic、 
Tomcat) 





监控 指标 


线程 池 


JVM 


数据 源 


连接 池 
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续 表 
监控 内 容 

© 下 述 参 数 每 次 采样 应 记录 : 活动 执行 线程 数 
(Execute Thread Total Count-Execute ThreadIdle 
Count-Standby Thread Count)， 空 闲 线程 数 (Execute 
ThreadIdle Count)， 备 用 线程 数 (Standby Thread 
Count)， 已 创建 的 总 线程 数 (Execute Thread 
Total Count)， 人 允许 创建 的 最 大 线程 数 “Dweblogic. 
threadpool.MaxPoolSize ) 
© 堆 内 存 空闲 空间 (Heap Free Percent) 比例 。 
如 果 空 闲 率 低 于 指定 值 ， 则 报警 ， 并 且 报 警 内 
容 中 体现 内 存 使 用 情况 ; 
© GC 使 用 情况 监控 ， 记录 GC 时 间 耗 时 ， 耗 
时 过 久 报 警 ; 
© JVM 对 CPU 使 用 率 突然 增 大 ， 报 警 ; 
@ IVM 中 有 死 锁 ， 报 警 ; 
© IVM 的 下 述 参数 每 次 采样 记录 在 系统 里 : 
JVM 当前 堆 大 小 (Heap Size Current)、 当 前 空 
闲 堆 大 小 (Heap Free Current)、 当 前 已 使 用 堆 
大 小 (Heap Size Current - Heap Free Current), 
允许 创建 最 大 堆 大 小 (Heap Size Max)、 空 闲 
堆 和 最 大 堆 比值 (Heap Free Percent) 
O 数据 源 运行 状态 。 如 果 不 是 RUNNING 状 
态 ， 则 报警 ， 并 且 将 数据 源 的 运行 状态 在 报警 
内 容 中 体现 ; 
© 数据 源 部 署 状态 .如果 不 是 ACTIVATED 状 
态 ， 则 报警 ， 并 且 将 数据 源 部 署 状态 在 报警 内 
容 中 体现 ; 
@ 数据 源 创建 监控 ， 没 有 建立 成 功 ， 则 报警 
(D 连接 池 健 康 状态 。 如 果 不 是 OK 状态 ， 则 报 
警 ， 并 且 将 数据 源 连接 状态 在 报警 内 容 中 体现 ; 
© 数据 源 连 接 池 若 有 等 待 连接 的 请 求 (Waiting 
For Connection Current Count)， 等 待 请 求 数 超 
过 指定 值 则 报警 ， 并 且 将 等 待 请 求 数 在 报警 内 
容 中 体现 ; 
© 数据 源 连 接 池 车 有 连接 泄漏 (Leaked 
Connection Count), 连接 泄漏 数 超过 指定 值 ， 则 
报警 ， 并 且 将 连接 泄露 数 在 报警 内 容 中 体现 ; 
© “高 阶 ” 指 定时 间 内 ， 记 录 数 据 源 连接 处 
理 请 求 最 耗 时 的 查询 ; 
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监控 类 别 


应 用 中 间 件 
(WebLogic、 
Tomcat) 


MQ 


续 表 

监控 内 容 
© 数据 源 连接 池 的 下 述 参数 记录 在 系统 里 : 当 
前 正在 被 线程 使 用 连接 数 (Active Connections 
Current Count)， 当 前 空闲 连接 数 (Num Available), 
当前 容量 (Active Connections Current Count-Num 
Available)， 最 大 可 建 连接 数 (Max Capacity), 
Active Connections Current Count/Max Capacity 
百分比 ， 并 且 大 于 指定 值 则 报警 
® 运行 状态 。 如 果 不 是 STATE_ACTIVE 则 报 
警 ， 报 警 内 容 需 包含 应 用 程序 运行 状态 ， 并 且 
指明 是 在 哪个 WebLogic Server 上 异常 ; 
@ 健康 状态 。 如 果 不 是 health_ok 则 报警 ， 报 
警 内 容 需 包含 应 用 程序 健康 状态 ， 并 指明 是 在 
哪个 WebLogic Server 上 异常 
© 队列 管理 器 状态 (QMegr Status). Running, 
Ended unexpectedly、Ended normally 等 , 一 般 
正常 状态 需 为 Running; 
@ 命令 服务 器 状态 (Command Server Status); 
图 监控 队列 管理 器 中 最 大 激活 通道 数 的 百 分 
比 (% Max Active Channels); 
© 当前 已 连接 的 激活 通道 数量 C Active 
Channel Connections ); 
© 当前 队列 管理 器 死 信 队列 深度 C DLQ 
Depth ); 
当前 队列 管理 器 中 通道 连接 的 健康 状况 ， 
主要 根据 通道 状态 判断 〈Channel Health); 
@ 当前 队列 管理 器 中 队列 的 健康 状况 ， 主 要 
根据 队列 深度 判断 〈Queue Health); 
当前 队列 管理 器 队列 中 的 所 有 消息 数量 
(Total Messages); 
© 当前 队列 管理 器 传输 队列 中 的 所 有 消息 数 
量 (Total Messages on XMIT Queues ); 
日 志 监 控 。 每 个 队列 管理 器 都 有 自己 的 错 
误 日 志 ， 一 般 位 置 在 “/var/mqm/qmegrs/ 队 列 管 
理 器 名 /errors” 目 录 








队列 管理 器 
通道 


@ 通道 状态 。 

通道 收 到 字 节 数 (Bytes Received); 
通道 发 送 字 节 数 (Bytes Sent); 
“基本 ”通道 状态 (Channel Status); 
当前 队列 消息 序号 CCurMsg SeqNo); 


监控 类 别 


MQ 


监控 指标 


通道 


队列 














续 表 
监控 内 容 
消息 批 次 号 (CurBatch LUW ID); 
通道 最 近 一 次 处 理 消息 的 时 间 (Last Message 
Date & Time); 
通道 消息 传输 速度 (Transmit KB/Sec)。 
Q 通道 统计 。 
通道 进入 短 重 试 状态 后 的 重 试 次 数 (Short 
Retries); 
通道 进入 长 重 试 状态 后 的 重 试 次 数 C Long 
Retries); 
满足 设 定 的 通道 类 型 和 状态 的 所 有 通道 的 发 
送 或 接收 字 节 数 (Total Bytes Sent/Received); 
满足 设 定 的 通道 类 型 和 状态 的 所 有 通道 的 当 
前 批量 消息 数量 (Total CurBatch Messages): 
通道 最 大 传输 速度 (MAX Transmit KB/Sec). 
@ 通道 总 体 情况 。 
通道 实例 占用 达到 最 大 实例 占用 数 某 一 百 分 
比值 (%MAX Instances); 
多 实例 并 发 通道 的 平均 接收 /发 送 字 节 数 
(Average Bytes Received/Sent); 
多 实例 并 发 通道 的 平均 消息 接收 数量 (Average 
Message Count) 
@ 队列 深度 达到 设 定 %〈%Full)， 
© 最 新 入 队 /出 队 时 间 (Last Put/Read); 
© 设 定 间隔 时 间 内 入 队 /出 队 的 消息 数量 
(Msgs Put/Read); 
@ 每 秒 入 队 / 出 队 的 消息 数量 〈Msgs Put/Read 
per Sec); 
© 访问 该 队列 的 所 有 应 用 数量 (Total Opens); 
© “基本 ”当前 队列 深度 〈Current Depth); 
C) 当前 入 队 /出 队 打 开 线 程 数 (Input/Output 
Opens); 
队列 中 最 老 消息 已 保留 的 时 间 (Oldest Msg Age) 








事件 (Event) 





WebSphere MQ 对 某 些 异常 情况 做 了 事先 的 定 
义 ， 称 为 事件 (Event)。 一 旦 这 种 系统 对 于 异 
常情 况 的 定义 条 件 满足 了 ， 也 就 是 事件 发 生 
T. WebSphere MQ 会 在 事件 发 生 时 自动 产生 
一 条 对 应 的 事件 消息 Event Message, 放 入 相应 
的 系统 事件 队列 中 。 因 此 也 可 以 通过 实时 监控 
这 些 事件 队列 来 实现 对 系统 的 监控 。 
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续 表 

监控 内 容 
O 队列 管理 器 事件 。 即 队列 管理 器 的 权限 
(Authority) 事件 、 禁 止 Cinhibit) 事件 、 本 
Hh (Local) 事件 、 远 程 (Remote) 事件 、 启 停 
(Start & Stop) 事件 ; 
Q 通道 事件 。 即 通道 及 通道 实例 启 停 、 通 道 
接收 消息 转换 出 错 、 通 道 SSL 出 错 ; 
@ 性 能 事件 。 即 队列 深度 HULOW 事件 、 队 
列 服务 间隔 事件 


MQ 


Apache 当前 同时 处 理 的 请 求 数 , 详细 统计 信息 
包括 读 取 请 求 、 持 久 连 接 、 发 送 响 应 内 容 、 关 
Apache 启动 的 时 候 , 默认 就 启动 几 个 进程 如 果 


: nee " Se 
Web 服务 器 ERMET, 它 就 会 生出 更 多 的 进程 来 处 理 请 求 


〈 例 如 Apache) 


提供 网 站 服务 
的 字 节 数 

处 理 连 接 的 耗 
时 时 间 


提供 网 站 服务 的 字 节 数 


处 理 连 接 的 耗 时 时 间 





Zabbix 是 目前 应 用 较 广 的 开源 解决 方案 ,支持 以 上 大 部 分 的 监控 指 
标的 探测 和 监控 策略 的 配置 。 


6.2.4 故障 转移 


主机 /存储 /网 络 /数据 库 一 般 都 是 以 心跳 包机 制 来 进行 健康 状态 的 
监控 。 由 管理 模块 向 各 个 模块 之 间 按 照 一 定时 间 间 隔 发 送 心跳 包 ， 或 者 
两 个 模块 之 间 互 相 发 送 心跳 包 ,， 如 果 超 过 设 定时 间 周 期 ， 某 个 模块 没有 
响应 ， 则 判断 该 模块 出 现 故 障 ， 备 份 模块 接管 该 模块 的 服务 ， 这 个 过 程 
被 称 为 故障 转移 (Failover). 

在 主 备 机 的 高 可 用 系统 中 ， 在 特殊 情况 下 会 发 生 脑 裂 (split-brain) 
的 故障 。 发 生 这 种 故障 的 原因 是 心跳 线 或 者 网 络 出 现 问题 ,造成 主 备 机 
互相 探测 不 到 对 方 的 心跳 ， 都 以 为 对 方 发 生 了 故障 , 于 是 便 主动 获取 存 
储 或 者 服务 IP 等 资源 ， 双 方 都 启动 服务 ， 造 成 服务 异常 。 

为 了 解决 脑 裂 问题 ， 一 般 会 在 主 备 机 之 外 ， 引 入 一 个 第 三 方 模块 ， 
作为 仲裁 者 ， 由 它 来 判断 到 底 是 谁 应 该 接管 资源 ， 对 外 提供 服务 。 


6.3 ”业务 连续 性 管理 
6.3.1 RERA 


1. 概念 和 等 级 


由 于 人 为 或 自然 的 原因 ,造成 信息 系统 严重 故障 或 瘫痪 ,使 信息 系统 
支持 的 业务 功能 停顿 或 服务 水 平 不 可 接受 、 达 到 特定 时 间 的 突 发 性 事件 被 
称 为 灾难 事件 ， 如 网 络 中 断 、 机 房 电力 中 断 、 地 震 、 洪 水 等 严重 故障 。 

为 了 将 信息 系统 从 灾难 造成 的 故障 或 瘫痪 状态 恢复 到 可 正常 运行 
状态 ， 并 将 其 支持 的 功能 从 灾难 造成 的 不 正常 状态 恢复 到 可 接受 状态 ， 
而 设计 的 活动 和 流程 被 称 为 灾难 恢复 过 程 。 灾 备 系统 就 是 为 了 灾难 恢复 
建设 的 备份 系统 。 灾 备 系统 通常 都 建设 在 主 数据 中 心 一 定 距离 以 外 的 同 
城 数据 中 心 或 者 异地 数据 中 心 。 

衡量 灾 备 系统 的 指标 主要 有 恢复 时 间 目 标 RTO (Recovery Time 
Objective) 和 恢复 点 目标 RPO (Recovery Point Objective). RTO 指 的 
是 灾难 发 生 后 ， 信 息 系 统 或 业务 功能 从 停顿 到 必须 恢复 的 时 间 要 求 。 而 
RPO 指 的 是 灾难 发 生 后 ， 系 统 和 数据 必须 恢复 到 的 时 间 点 要 求 。 例 如 
灾难 发 生 后 ， 灾 备 系统 花费 了 1 小 时 将 服务 全 部 恢复 ， 数 据 丢 失 了 15 
分 钟 ， 则 RTO 是 1 小 时 ，RPO 是 15 分 钟 。 

根据 国标 《信息 系统 灾难 恢复 规范 》(GB/T 20988 一 2007)， 灾 难 恢 
复 能 力 等 级 分 为 6 个 级 别 ， 如 表 6-3 所 示 。 


表 6-3 灾难 恢复 能 力 的 6 MRA 


级 A 主要 要 求 
第 一 级 | 每 周一 次 的 数据 备份 ， 场 外 存放 备份 介质 
第 二 级 

第 








每 周一 次 的 数据 备份 ， 有 备用 的 基础 设施 场地 

每 天 一 次 的 数据 备份 ， 利 用 通信 网 络 将 关键 数据 定时 批量 传送 至 
备用 场地 

每 天 一 次 的 数据 备份 ， 利 用 通信 网 络 将 关键 数据 定时 批量 传送 至 
第 四 级 | 备用 场地 ， 配 备 灾难 恢复 所 需 的 全 部 数据 处 理 设备 ， 并 处 于 就 绪 
状态 或 运行 状态 

采用 远程 数据 复制 技术 ， 并 利用 通信 网 络 将 关键 数据 实时 复制 到 
第 五 级 | 备用 场地 ， 配 备 灾难 恢复 所 需 的 全 部 数据 处 理 设备 ， 并 处 于 就 绪 
状态 或 运行 状态 

远程 实时 备份 ， 实 现 数据 零 丢 失 ， 具 备 远 程 集群 系统 的 实时 监控 
和 自动 切换 能 力 
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其 中 第 六 级 的 详细 要 求 如 表 6-4 所 示 。 
表 6-4 灾难 恢复 能 力 第 六 级 的 详细 要 求 
要 FR 要 X 
(D 完全 数据 备份 至 少 每 天 一 次 ; 
数据 备份 系统 | @ 备份 介质 场 外 存放 ; 
© 远程 实时 备份 ， 实 现 数 据 零 丢失 
QD 备用 数据 处 理 系统 具备 与 生产 数据 处 理 系统 一 致 的 处 理 能 
备用 数据 处 理 | 力 并 完全 兼容 ; 
系统 © 应 用 软件 是 “集群 的 ”， 可 实时 无 缝 切换 ; 


© 具备 远程 集群 系统 的 实时 监控 和 自动 切换 能 力 
QD 配备 与 主 系统 相同 等 级 的 通信 线路 和 网 络 设备 ; 
@ 备用 网 络 处 于 运行 状态 ; 

© 最 终 用 户 可 通过 网 络 同时 接 入 主 、 备 中 心 

QD 有 符合 介质 存放 条 件 的 场地 ; 

@ 有 符合 备用 数据 处 理 系 统 和 备用 网 络 设备 运行 要 求 的 场地 ; 
© 有 满足 关键 业务 功能 恢复 运作 要 求 的 场地 ; 

(D 以 上 场地 应 保持 7X24 小 时 运作 

在 灾难 备份 中 心 7X24 小 时 有 专职 的 : 

© 计算 机 机 房管 理 人 员 ; 

© 专职 数据 备份 技术 支持 人 员 ， 

© 专职 硬件 、 网 络 技术 支持 人 员 ; 

© 专职 操作 系统 、 数 据 库 和 应 用 软件 技术 支持 人 员 
O 有 介质 存 取 、 验 证 和 转 储 管理 制度 ; 

@ 按 介质 特性 对 备份 数据 进行 定期 的 有 效 性 验证 ; 
© 有 备用 计算 机 机 房 运行 管理 制度 ; 

© 有 硬件 和 网 络 运行 管理 制度 ; 

© 有 实时 数据 备份 系统 运行 管理 制度 ; 

有 操作 系统 、 数 据 库 和 应 用 软件 运行 管理 制度 


备用 网 络 系统 


备用 基础 设施 


专业 技术 支持 
能 力 








灾难 恢复 预案 | 有 相应 的 经 过 完整 测试 和 演练 的 灾难 恢复 预案 


灾 备 恢复 等 级 越 高 , 业务 中 断 和 数据 丢失 的 时 间 越 少 , 所 要 求 的 技 
术 水 平 越 高 , 但 是 建设 和 维护 成 本 就 相应 地 成 倍增 长 。 确 定 合适 的 灾难 
恢复 等 级 , 需要 从 实际 业务 需求 出 发 , 主要 考虑 因素 是 系统 服务 中 断 的 
影响 程度 ， 如果 短 时 间 的 中 断 将 对 国家 、 外 部 机 构 和 社会 产生 重大 影响 
或 者 对 将 严重 影响 单位 关键 业务 功能 并 造成 重大 经 济 损失 的 系统 , 需要 
考虑 建设 第 五 等 级 或 者 第 六 等 级 的 灾 备 系统 ; 如 果 短 时 间 中 断 造 成 的 损 
失 并 不 大 ， 且 用 户 可 以 容忍 ， 则 建设 等 级 可 以 酌情 递减 。 

建设 和 维护 灾 备 系统 , 需要 重点 考虑 的 有 数据 复制 、 切 换 技术 以 及 
应 用 交互 。 








2. 数据 复制 


从 复制 过 程 上 来 区 分 , 数据 复制 分 为 同步 和 异步 两 种 方式 。 同 步 数 
据 复制 ， 指 通过 将 本 地 生产 数据 以 完全 同步 的 方式 复制 到 异地 ， 每 一 本 
地 IO 交易 均 需 等 待 远程 复制 的 完成 方 予 以 释放 。 异步 数据 复制 则 是 指 
将 本 地 生产 数据 以 后 台 同 步 的 方式 复制 到 异地 , 每 一 本 地 IO 交易 均 正 
常 释放 ， 无须 等 待 远程 复 制 的 完成 。 由 于 同步 复制 的 等 待 过程 ， 会 造成 
本 地 系统 IO 时 间 长 ， 且 同步 复制 受制 于 网 络 时 延 ， 一般 备份 系统 距离 
生产 系统 的 网 络 线路 不 能 超过 40km， 目 前 主要 应 用 在 数据 中 心 内 部 局 
域 网 的 备份 ， 对 于 灾 备 系统 的 建设 而 言 ， 基 本 采用 异步 复制 。 

而 从 复制 技术 上 区 分 ， 主 要 分 为 基于 数据 库 的 复制 、 基 于 应 用 的 数 
据 复制 、 基 于 存储 的 数据 复制 。 

C1) 基于 数据 库 的 复制 

基于 数据 库 的 数据 复制 , 将 源 数据 库 中 的 数据 库 通过 逻辑 的 方式 在 
异地 建立 一 个 同样 的 数据 库 ， 并 且 实时 更 新 ,当主 数据 库 发 生 灾难 时 可 
及 时 接管 业务 系统 ， 达 到 容 灾 的 目的 。 采 用 数据 库 层面 的 数据 复制 技术 
进行 灾 备 建设 具有 投资 少 、 无 须 增加 额外 硬件 设备 、 可 完全 支持 异 构 环 
境 的 复制 等 优点 。 但 是 ， 该 技术 对 数据 库 的 版 本 和 操作 系统 平台 有 较 高 
的 依赖 程度 。 目 前 比较 流行 的 技术 是 Oracle 公司 的 Goldengate 和 
Dataguard， 对 于 存储 在 数据 库 中 的 结构 化 而 言 ， 是 比较 好 的 选择 。 

(2) 基于 应 用 的 复制 

应 用 层面 的 数据 复制 通过 应 用 程序 与 主 备 中 心 的 数据 库 进行 同步 
或 异步 的 写 操作 ,以 保证 主 备 中 心 数据 一 致 性 , 灾 备 中 心 可 以 和 生产 中 
心 同时 正常 运行 ， 既 能 容 灾 ,， 还 可 实现 部 分 功能 分 担 ,该 技术 的 实现 方 
式 复杂 ,与 应 用 软件 业务 逻辑 直接 关联 ， 实 现 和 维护 有 一 定 难 度 。 如 开 
源 软件 rsync 可 以 实现 文件 级 别 的 同步 ，HBase 的 Replication 机 制 能 够 
对 数据 文件 进行 多 节点 复制 。 

(3) 基于 存储 的 数据 复制 

存储 复制 技术 是 基于 存储 磁盘 阵列 之 间 的 直接 镜像 , 通过 存储 系统 
AAU AE (Firmware) 或 操作 系统 ， 利 用 IP 网 络 或 光纤 通道 等 传输 
界面 连结 ,将 数据 以 同步 或 异步 的 方式 复制 到 灾 备 中 心 。 当 然 , 一 般 情 
况 下 必须 在 同等 存储 品牌 并 且 同 等 型 号 的 存储 系统 控制 器 之 间 才 能 实 
现 。 在 基于 存储 阵列 的 复制 中 , 复制 软件 运行 在 一 个 或 多 个 存储 控制 器 
上 ， 非 常 适合 拥有 大 量 服务 器 的 环境 , 原因 如 下 : 独立 于 操作 系统 ; 能 
够 支持 Windows 和 基于 UNIX 的 操作 系统 以 及 大 型 机 (高 端 阵列 ); VF 








可 费 一 般 基于 存储 容量 而 不 是 连接 的 服务 器 数量 ; 不 需要 连接 服务 器 上 
的 任何 管理 工作 。 由 于 复制 工作 被 交 给 存储 控制 器 来 完成 , 在 异步 传输 
本 地 缓存 较 大 时 可 以 很 好 地 避免 服务 器 的 性 能 开销 过 大 的 问题 , 从 而 使 
基于 存储 阵列 的 复制 非常 适合 关键 任务 和 高 端 交易 应 用 。 这 也 是 目前 应 
用 最 广泛 的 容 灾 复制 技术 之 一 。 

大 数据 系统 的 一 个 特点 是 数据 增 量 很 大 ， 无 论 采 用 哪 种 复制 方法 ， 
都 要 对 网 络 带 宽 有 合理 的 估算 , 例如 日 新 增 数据 为 500GB, 则 每 秒 需 要 
新 增 数据 5.7MB, 网 络 带 宽 需 满足 该 种 数据 同步 需求 。 如 果 数 据 量 实在 
太 大 ， 则 可 以 考虑 错 峰 传输 备份 数据 ， 避 免 主 数据 中 心 和 备份 数据 中 心 
间 的 网 络 拥堵 ， 但 是 这 会 造成 RPO 时 间 变 长 。 


3. 灾 备 切换 


灾 备 切换 是 一 系列 操作 的 组 合 , 不 是 单一 的 技术 动作 ,服务 的 启动 
顺序 也 有 严格 的 要 求 。 例如， 数据 库 必须 先 启动 ， 之 后 才能 启动 应 用 程 
序 ; 应 用 服务 器 接管 完成 ， 才 能 进行 网 络 的 切换 。 如 果 应 用 程序 先 于 数 
据 库 启动 ,会 出 现 报错 。 最 好 通过 操作 手册 和 切换 脚本 对 切换 的 步骤 进 
行 固化 ， 并 安排 一 定 频率 的 灾 备 演练 。 

(1) 网 络 切换 

网 络 切换 主要 分 为 IP 地 址 切换 、DNS 切换 、 负 载 均衡 切换 。 

Q IP 地 址 切换 : 生产 中 心 和 灾 备 中 心 主 备 应 用 服务 器 的 IP 地 址 
空间 相同 ， 客 户 端 通过 唯一 的 IP 地 址 访问 应 用 服务 器 。 在 正 
常情 况 下 ， 只 有 生产 中 心 应 用 服务 器 的 IP 地 址 处 于 可 用 状态 ， 
灾 备 中 心 的 备用 服务 器 IP 地 址 处 于 禁用 状态 。 一 旦 发 生 灾难 ， 
管理 员 手 工 或 通过 脚本 将 灾 备 中 心服 务 器 的 IP 地 址 设置 为 可 
用 ， 实 现 网 络 访问 路 径 切 换 。 

口 基于 DNS 服务 器 的 切换 : 在 这 种 方式 下 ， 所 有 应 用 需要 根据 
域名 来 访问 ， 而 不 是 直接 根据 主机 的 IP 地 址 来 访问 ， 从 而 通 
过 修改 域名 和 IP 地 址 的 对 应 关系 实现 对 外 服务 的 切换 。 

口 基于 负载 均衡 设备 的 切换 : 负载 均衡 设备 能 够 针对 各 种 应 用 服 
务 状态 进行 探测 ， 收 集 相 应 信息 作为 选择 服务 器 或 链 路 的 依 
据 ， 包 括 ICMP, TCP, HTTP. FTP. DNS 等 。 通 过 对 应 用 协 
议 的 深度 识别 ， 能 够 自动 对 不 同业 务 在 主 生产 中 心 和 灾 备 中 心 
之 间 进 行 切 换 。 

(2) 应 用 切换 

根据 应 用 平时 的 启动 状态 ， 应 用 的 备份 方式 主要 有 4 种 ， 如 表 6-5 











所 示 。 
表 6-5 应 用 的 备份 方式 
备份 方式 灾 备 系统 的 应 用 启动 状态 
冷 备 | ”应 用 和 系统 软件 都 处 在 停止 状态 
温 备 | ”应 用 处 在 停止 状态 ， 数 据 库 等 系统 软件 处 在 启动 状态 
热 备 | ”应 用 处 在 启动 状态 ， 但 不 对 外 服务 





双 活 应 用 处 在 启动 状态 ， 同 时 对 外 服务 


冷 备 和 温 备 的 应 用 在 灾 备 切换 时 ， 需 要 启动 应 用 程序 ; 热 备 的 应 用 
在 切换 时 需要 更 改 应 用 状态 ; 双 活 的 应 用 在 切换 时 只 需要 通过 网 络 流量 
切换 ， 把 访问 流量 引导 到 灾 备 系统 ，RTO 最 短 。 

(3) 应 用 交互 

具体 的 切换 场景 ,可 以 分 为 数据 中 心 整体 切换 和 部 分 切换 ， 如 果 要 
做 到 部 分 切换 ， 那 么 需要 考虑 应 用 交互 机 制 ， 划 分 合适 的 切换 区 域 。 

如 图 6-1 AR, EEPO, RA AMRA B 都 需要 和 系统 C 产生 
数据 交互 。 当 系统 A 区 域 发 生 严 重 故 障 ， 例 如 硬件 层面 损坏 ， 本 地 无 
法 恢复 ， 需 要 考虑 进行 灾 备 切换 时 ， 而 系统 B 和 系统 C 仍然 工作 正常 ， 
那么 最 佳 方案 是 需要 将 系统 B 和 系统 C 保持 现状 ， 只 切换 系统 A。 此 
时 需要 注意 ， 系 统 A 和 系统 C 之 间 的 应 用 交互 方式 需要 支持 跨 数据 中 
心 的 网 络 时 延 ， 通 常 都 在 Ims 以 上 ， 否 则 无 法 切换 。 另 外 ， 在 系统 A 
切换 到 备份 数据 中 心 运行 时 ， 需 要 对 A 相关 联 的 系统 都 要 进行 网 络 访 
问 地 址 切换 。 








系统 A 














系统 C 























图 6-1 应 用 交互 示意 图 
6.3.2 ”应 急 预案 


需要 对 系统 可 能 出 现 的 故障 做 出 预案 , 以 便 发 生 故障 时 能 够 快速 处 
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理 以 恢复 服务 。 应 急 预 案 中 需要 明确 适用 的 故障 场景 ， 启 动 预案 的 触发 
条 件 ， 相 关 人 员 的 职责 ， 以 及 应 急 的 操作 步 又。 其 中 ， 应 急 的 操作 步 又 
包括 可 能 的 技术 操作 步骤 如 重启 进程 ， 业 务 操 作 步 骤 如 发 出 通知 。 
以 一 个 交通 信息 管理 的 大 数据 系统 为 例 ， 应 急 预 案 可 能 包括 以 下 方面 。 
口 针对 系统 整体 故障 ， 切 换 到 灾 备 系统 的 应 急 预 案 。 
O 针对 系统 某 些 模块 故障 ， 如 个 别 服务 器 、 网 络 等 ， 需 要 在 本 地 
进行 服务 器 切换 的 应 急 预 案 。 
O 处 置 接口 数据 传输 的 应 急 预 案 , 如 当 正 常 的 数据 采集 渠道 出 现 
问题 ， 如 何 把 数据 传输 、 导 入 到 处 理 系统 中 。 
口 处 置 特定 业务 场景 ， 如 登录 、 搜 索 功 能 的 应 急 预 案 。 
口 处 置 已 知 缺陷 或 者 历史 上 发 生 过 的 问题 的 应 急 预 案 。 
风险 点 可 能 很 多 ， 同 样 需要 从 业务 需求 和 系统 架构 的 实际 情况 出 
发 ， 制 定 包含 合适 场景 的 预案 ， 并 且 要 对 预案 进行 更 新 、 测 试 和 演练 ， 
保证 预案 的 有 效 性 和 可 操作 性 。 


6.3.3 日 常 演练 


需要 定期 对 灾 备 切换 等 应 急 预 案 组 织 演练 , 主要 有 沙盘 推演 、 模 拟 
演练 和 真实 切换 。 


1. 沙盘 推演 
沙盘 推演 指 的 是 不 做 任何 技术 或 者 业务 操作 , 仅仅 是 把 应 急 预 案 推 


演 一 遍 。 通 过 推演 ， 召集 预 案 相关 人 员 熟 悉 预 案 , 思考 预案 中 可 能 存在 
的 问题 ， 验 证 预案 中 的 组 织 方式 和 先后 顺序 。 


2. 模拟 演练 


模拟 演练 相对 于 沙盘 推演 又 真实 了 一 些 , 模拟 演练 一 般 在 非 生产 环 
境 进行 ， 如 在 测试 环境 或 者 灾难 备份 环境 中 ， 按 照应 急 预 案 的 内 容 ， 完 
成 应 急 操作 。 模 拟 演练 的 逼真 程度 较 高 ， 通 过 模拟 演练 ， 能 够 发 现 技术 
层面 和 操作 层面 中 存在 的 问题 。 一 些 金融 企业 ， 对 自己 的 核心 系统 ， 每 
年 都 会 组 织 模拟 演练 。 

3. 真实 切换 

当 技术 水 平和 管理 能 力 达到 较 高 层次 , 在 对 于 灾 备 系统 建设 和 风险 
点 的 规避 都 已 经 比较 成 熟 的 前 提 下 , 一 些 企 业 或 者 组 织 会 考虑 通过 真实 
切换 , 来 验证 备份 系统 的 可 靠 性 。 通常, 企业 会 选择 在 业务 非 高 峰 时 段 ， 
停止 生产 系统 ,将 访问 流量 切换 到 灾 备 系统 进行 处 理 。 一 般 敢 于 做 真实 
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切换 的 企业 , 基本 上 灾 备 系统 都 做 到 了 双 活 水 平 , RTO 和 RPO 趋 近 于 0, 
切换 对 用 户 访问 不 造成 影响 。 


6.4 ”作业 与 练习 


一 、 问 答题 

1. 一 个 系统 24x365 小 时 对 外 服务 ，2017 年 度 中 断 服务 20 小 时 ， 
该 系统 的 可 用 性 为 多 少 ? 

2. 简 述 脑 裂 现象 是 如 何 产生 的 ， 怎 么 避免 ? 

3. 请 列 出 3 种 数据 复制 技术 。 

4. 请 列 出 3 种 常见 的 监控 指标 项 。 

二 、 判 断 题 

1. 保证 可 用 性 的 核心 思想 是 元 余 。 

2， 例 如 灾难 发 生 后 ， 灾 备 系统 花费 了 1 小 时 将 服务 全 部 恢复 ， 数 
HERT 15 分 钟 ， 则 RPO 是 1 小 时 ，RTO 是 15 分 钟 。 

3. 灾 备 的 日 常 演练 就 是 真实 切换 。 
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应 用 变更 管理 


应 用 系统 变更 是 指 开 发 或 建设 项 目 交付 后 , 对 生产 运行 系统 配置 单 
元 现 有 状态 进行 变化 ， 如 新 建 、 改 变 和 消除 等 。 应 用 变更 管理 是 指 在 最 
短 的 中 断 时 间 内 完成 基础 架构 或 服务 的 任 一 方面 的 变更 而 对 其 进行 控 
制 的 服务 管理 流程 。 变 更 管理 的 目标 是 确保 在 变更 实施 过 程 中 使 用 标准 
的 方法 和 步骤 ,尽快 地 实施 变更 ， 以 将 由 变更 所 导致 的 业务 中 断 对 业务 
的 影响 减 小 到 最 低 。 通 常 ， 根 据 变更 的 紧急 程度 和 风险 程度 ， 可 以 将 变 
更 分 为 标准 变更 、 紧 急 变更 等 。 本 章 主 要 介绍 了 变更 管理 概述 、 变 更 管 
理 流 程 以 及 变更 与 配置 管理 的 关系 等 内 容 。 


7.1 变更 管理 概述 
741.1 变更 管理 目标 


变更 管理 目标 主要 是 指 确保 变更 被 记录 然后 被 评估 、 授 权 、 决 定 优 
先 级 、 计 划 、 测 试 、 实 施 、 记 录 和 审核 的 一 系列 控制 措施 ， 将 由 变更 所 
导致 的 业务 中 断 对 业务 的 影响 减 小 到 最 低 。 


7.1.2 变更 管理 范围 


变更 管理 范围 主要 是 指 支撑 业务 服务 的 应 用 软件 及 其 依赖 的 基础 
设施 环境 等 基础 配置 项 ， 在 整个 生命 周期 内 发 生变 化 时 的 管理 。 


7.1.3 ”变更 管理 的 种 类 


1. 标准 变更 


标准 变更 也 称 例 行 变更 , 是 由 变更 管理 预先 批准 的 对 服务 和 基础 设 
施 的 变更 。 其 具有 一 个 既定 的 流程 来 提供 变更 请 求 服务 ,由 这 个 标准 变 
更 授权 来 批准 每 一 个 标准 变更 的 发 生 。 

标准 变更 关键 在 于 以 下 几 方面 。 

口 变更 请 求 的 发 起 是 由 一 个 已 定义 的 场景 或 条 件 来 发 起 的 。 

口 管理 权限 事先 给 予 。 

口 低 风险 且 易于 了 解 。 

一 旦 标准 变更 管理 方式 被 通过 , 标准 变更 流程 和 相关 变更 工作 流程 
都 应 该 被 订 制 和 被 传达 。 标准 变更 流程 应 在 建立 变更 管理 流程 初期 就 被 
订 制 。 所 有 变更 包括 标准 变更 将 有 详细 的 变更 记录 。 配置 项 目的 标准 变 
更 在 资产 或 配置 项 目 生命 周期 中 被 跟踪 。 一 些 标准 变更 会 被 服务 请 求 流 
程 触发 并 由 服务 台 直 接 记 录 和 执行 。 


2. 紧急 变更 


紧急 变更 被 预 留 给 旨 在 修复 那些 严重 影响 到 业务 的 紧迫 程度 高 的 
IT 服务 故障 或 者 紧急 的 业务 需求 。 一 个 紧急 变更 的 授权 级 别 和 权力 下 
放 程 度 应 清楚 地 被 记录 和 了 和 解 。 在 紧急 情况 下 ， 由 ECAB 批准 。 

紧急 变更 的 测试 仍 是 不 可 避免 的 ， 应 避免 那些 完全 未 经 测试 的 变 
更 。 变 更 的 实施 未 能 解决 错误 时 可 能 需要 有 修补 程序 来 迭代 尝试 。 变更 
管理 应 确保 业务 是 被 优先 考虑 的 。 每 次 迭代 都 应 在 控制 之 下 并 确保 失败 
的 变更 被 及 时 退出 。 


7.1.4 ”变更 管理 的 原则 


变更 管理 的 原则 如 下 。 

口 应 建立 组 织 变更 管理 文化 。 

口 变更 管理 流程 与 企业 项 目 管理 、 利 益 相关 者 的 变更 管理 流程 要 
一 致 。 

职责 分 离 。 

防止 生产 环境 中 的 未 授权 变更 。 

和 其 他 服务 管理 进程 一 致 从 而 可 以 追踪 变更 、 发 现 未 授权 变更 。 
明确 变更 窗口 。 

严格 评估 影响 服务 能 力 的 变更 的 风险 和 性 能 。 
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7.2 ”变更 管理 流程 


7.2:1 


变更 的 组 织 架 构 


变更 的 组 织 架构 包括 变更 咨询 委员 会 《CAB )、 变 更 控制 委员 会 
(CCB) 和 紧急 变更 控制 委员 会 (ECCB ) 。 


7.2.2 


变更 的 管理 策略 


变更 管理 的 关键 绩效 指标 和 衡量 标准 如 下 。 


7.2.3 


变更 数量 。 

服务 中 断 数 量 、 因 为 错误 规则 导致 的 缺陷 或 返工 、 不 完整 或 缺 
乏 评 估 这 类 现象 的 减少 。 

未 经 授权 的 变更 数量 。 

无 计划 变更 和 紧急 修复 的 数量 和 百分比 。 

变更 成 功率 。 

变更 失败 的 数量 。 

变更 回 退 的 数量 。 

紧急 变更 数量 。 


变更 的 流程 控制 


变更 管理 的 主要 活动 有 以 下 几 项 。 


Ooooooco 


7.2.4 


ie 


变更 的 规划 和 控制 。 
变更 和 发 布 的 调度 。 
变更 决策 和 授权 。 
度量 和 控制 。 

管理 报告 。 

了 解 变 更 影响 。 
持续 改进 。 


变更 管理 流程 
创建 和 记录 变更 请 求 


变更 是 由 发 起 者 通过 一 个 请 求 发 起 的 。 对 于 一 个 能 给 组 织 或 财政 带 
来 重大 影响 的 重大 变更 , 变更 提议 需要 被 完整 说 明 , 并 连同 从 业务 和 财 
政 角 度 来 说 明 。 

变更 记录 , 记录 了 变更 的 所 有 历史 痕迹 ， 从 变更 请 求 和 随后 已 设 定 
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的 参数 记录 中 获得 信息 ， 如 优先 和 授权 、 执 行 和 检查 信息 。 变 更 记录 的 
定义 应 在 流程 规划 和 设计 时 完成 。 变 更 文档 的 各 类 属性 要 尽量 标准 化 。 
变更 文档 相关 记录 和 相关 配置 项 都 由 配置 管理 系统 来 更 新 。 所 有 预算 、 
实际 资源 、 成 本 和 结果 都 被 管理 报告 记录 。 


2. 变更 请 求 审 核 


应 过 滤 以 下 变更 。 

口 不 合理 的 变更 请 求 。 

OQ 过 期 、 已 接受 、 被 拒绝 或 仍 在 审议 中 的 被 重复 提交 的 变更 请 求 。 

OQ 提交 不 完整 变更 请 求 。 

这 些 变更 请 求 应 退回 给 发 起 者 并 连同 拒绝 理由 及 简单 细节 描述 , 同 
时 在 日 志 中 记录 这 一 事项 。 


3. 变更 评估 


失败 的 变更 引发 的 潜在 影响 和 对 于 服务 资产 和 配置 的 影响 需要 被 
考虑 。 变 更 以 下 7 个 问题 能 对 变更 进行 评估 。 
谁 提出 的 变更 。 
变更 的 原因 。 
变更 的 回报 。 
变更 带 来 哪些 风险 。 
变更 所 需要 的 资源 。 
谁 来 负责 建立 、 测 试 和 实施 变更 。 
Q ”变更 之 间 的 关系 。 


4. 变更 的 风险 


可 以 根据 变更 的 影响 及 问题 发 生 的 概率 , 对 变更 的 风险 进行 相应 的 
区 分 ， 分 区 图 如 图 7-1 所 示 。 
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高 影响 高 影响 
ERE 高 概率 
风险 值 2 风险 值 1 
低 影响 低 影 响 
低 概率 高 概率 
风险 值 4 风险 值 3 
> 
概率 


图 7-1 变更 风险 评估 
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5. 分 配 优先 次 序 


确定 变更 顺序 是 一 项 重要 工作 。 每 一 个 变更 都 包括 发 起 人 对 影响 的 
评估 和 变更 的 紧迫 性 。 变 更 优先 是 来 自 于 影响 性 和 紧迫 性 。 最 初 的 影响 
性 和 紧急 度 是 由 发 起 人 提供 的 , 但 在 变更 授权 流程 中 优先 次 序 可 能 会 被 
修改 , 所 以 风险 评估 在 这 一 阶段 就 很 重要 。 变 更 顾问 组 织 为 了 评估 实施 
或 者 不 实施 变更 所 引发 的 风险 , 需要 业务 影响 信息 。 影响 是 基于 有 利于 
业务 的 变更 或 由 于 错误 变更 造成 的 损失 和 成 本 。 影 响 无 法 用 绝对 数值 表 
示 ， 但 可 以 取决 于 某 些 事情 或 某 些 情 况 的 可 能 性 。 


6. 变更 的 规划 和 调度 


仔细 地 规划 变更 确保 变更 管理 流程 中 每 一 个 任务 都 是 明确 的 ; 明确 
其 他 流程 所 包含 的 任务 ; 给 那些 变更 和 发 布 的 供应 商 或 项 目 提供 多 少 流 
程 接口 。 许 多 变更 可 能 是 属于 一 个 发 布 的 , 有 可 能 是 设计 、 测试 和 发 布 。 
也 有 许多 独立 的 变更 组 成 一 个 发 布 , 这 可 能 造成 复杂 的 依赖 关系 ,难以 
管理 。 建 议 在 变更 管理 中 ,调度 变更 时 优先 考虑 业务 而 不 是 IT 的 需求 。 

事先 商定 和 已 确定 的 变更 和 发 布 窗 口 , 能 帮助 组 织 改 善 计划 和 整个 
变更 发 布 。 只 要 有 可 能 ， 变 更 管理 应 安排 授权 ， 进行 发 布 目标 变更 或 部 
署 软件 包 和 分 配 相应 资源 。 变 更 管理 协调 产品 和 变更 日 程 的 分 配 以 及 预 
计 服 务 中 断 。 变 更 日 程 包 括 所 有 授权 实施 变更 及 实施 日 期 的 详细 信息 。 
预计 服务 中 断 包含 SLA 协议 和 可 用 性 中 的 变更 细节 。 


7. 变更 的 授权 


特定 类 型 变更 的 授权 等 级 取决 于 变更 种 类 、 规 模 或 风险 。 权力 下 放 
的 程度 即 相应 的 授权 程度 ， 需 考虑 以 下 因素 。 

Q 预期 业务 风险 。 

口 对 财政 影响 。 

口 范围 变化 。 

8. 协调 变更 执行 


已 授权 的 变更 会 被 提交 给 执行 变更 的 相关 技术 组 , 建议 使 用 正规 的 
方式 来 实现 , 便于 对 其 进行 追踪 。 变 更 管理 应 确保 变更 如 期 完成 ,管理 
主要 起 到 协调 作用 , 具体 实施 由 其 他 人 员 负 责 。 每 个 变更 都 应 提前 准备 
修复 程序 并 将 其 文档 化 。 因 为 实施 期 间或 实施 后 发 生 错 误 时 ， 这 些 程序 
需要 在 对 业务 最 小 影响 下 进行 快速 恢复 。 变 更 管理 有 监督 的 作用 , 确保 
变更 是 经 过 测试 的 。 对 于 没有 经 全 面 测 试 的 变更 需要 在 执行 时 特别 














9. 变更 回顾 、 关 闭 


变更 完成 后 变更 管理 者 应 对 结果 进行 评估 。 评 估 还 要 包括 由 变更 引 
起 的 任何 事件 。 变 更 回顾 应 确认 变更 是 否 达 到 目标 , 应 吸取 的 经 验 以 及 
对 今后 的 变更 进行 改进 。 变 更 若 没有 实现 目标 ， 变 更 管理 应 决定 后 续 的 
行动 ， 如 果 达 到 目标 应 关闭 变更 。 


73 ”变更 配 置 管理 


为 了 管理 大 型 复杂 的 IT 服务 和 基础 设施 ， 资 产 和 配置 管理 需要 使 
用 配置 管理 系统 。 在 指定 范围 内 配置 管理 系统 掌握 着 所 有 配置 项 信息 ， 
配置 管理 系统 为 所 有 服务 组 件 与 相关 事故 、 问题 、 已 知 错误 、 变更 发 布 、 
文档 、 公 司 数 据 、 供 应 商 、 客户 信息 做 关联 。 具体 可 以 参考 本 书 第 1 章 。 


7.4 ”作业 与 练习 


一 、 填 空 题 
1. 变更 管理 目标 是 确保 变更 被 记录 然后 





的 一 系列 控制 措施 。 

2. 通常 ， 变 更 分 为 和 。 紧 急 变 更 是 被 预 留 给 
旨 在 修复 那些 严重 影响 到 业务 的 紧迫 程度 高 的 IT 服务 故障 。 

3. 通常 ， 变 更 的 组 织 架 构 包 括 ， 全 称 ; 以 及 

， 全 称 E 

二 、 问 答题 

l. 请 简要 描述 变更 管理 的 活动 流程 。 

2. 请 简要 描述 发 布 管理 的 活动 流程 。 

3. 请 简要 描述 变更 管理 的 关键 绩效 指标 和 衡量 标准 。 

4. 请 简要 描述 发 布 管理 的 关键 绩效 指标 和 衡量 标准 。 
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升级 管理 


本 章 简要 介绍 了 Hadoop, Spark, Hive SQL 及 ZooKeeper 的 升级 管 
理 ， 包 括 升级 风险 、 关 键 组 件 、 升 级 配置 等 。HDFS HR, Æ Hadoop 
集群 升级 的 关键 ,而 HDFS 升级 ， 最 重要 的 是 namenode 的 升级 ; Spark 
并 不 是 传统 意义 上 “安装 ”在 集群 上 ， 只 需要 下 载 并 解压 合适 的 版 本 、 
进行 一 定 的 配置 并 修改 SPARK HOME 等 环境 变量 即 可 ，Hive 升级 是 向 
下 兼容 的 ， 但 是 升级 之 后 ， 在 初始 化 阶段 ， 会 改变 之 前 元 数据 的 一 些 表 
结构 ， 再 用 低 版 本 的 Hive client 端 访问 元 数据 就 会 提示 错误 ，ZooKeeper 
升级 采用 逐 台 重启 ， 并 且 以 先 Follower 最 后 Leader 的 方式 升级 。 


8.1 Hadoop 升级 管理 


Hadoop 是 一 个 分 布 式 系统 基础 架构 ， 由 Apache 基金 会 开发 。 用 户 
可 以 在 不 了 解 分 布 式 底层 细节 的 情况 下 , 开发 分 布 式 程序 。 充 分 利用 集 
群 的 威力 高 速 运算 和 存储 。 简 单 地 说 ，Hadoop 是 一 个 可 以 更 容易 开发 
和 运行 处 理 大 规模 数据 的 软件 平台 。 

Hadoop 实现 了 一 个 分 布 式 文件 系统 CHDFS, Hadoop Distributed File 
System). HDFS 有 着 高 容错 性 〈fault-tolerent) 的 特点 ， 并 且 设 计 用 来 
部 署 在 低廉 的 (low-cost) 硬 件 上 .而 且 它 提供 高 传输 率 (high throughput) 
来 访问 应 用 程序 的 数据 ， 适 合 那些 有 着 超大 数据 集 (large data set) 的 
应 用 程序 。HDFS 放宽 (relax) 了 POSIX 的 要 求 (requirements)， 这 样 
可 以 流 的 形式 访问 (streaming access) 文件 系统 中 的 数据 。 


下 面 列举 Hadoop 主要 的 一 些 特点 。 


a 


a 


a 


a 


扩容 能 力 〈Scalable): 能 可 靠 地 (reliably) 存储 和 处 理 皮 字 节 
(PB) 数据 。 

成 本 低 (Economical): 可 以 通过 普通 机 器 组 成 的 服务 器 群 来 分 
发 以 及 处 理 数据 。 这 些 服务 器 群 总 计 可 达 数 千 个 节点 。 
AAE (Efficient): 通过 分 发 数据 ，Hadoop 可 以 在 数据 所 在 
的 节点 上 并 行 地 (parallel) 处 理 它们 , 这 使 得 处 理 非常 的 快速 。 
可 靠 性 (Reliable): Hadoop 能 自动 地 维护 数据 的 多 份 复 制 ， 并 
且 在 任务 失败 后 能 自动 地 重新 部 署 (redeploy) 计算 任务 。 


8.1.1 Hadoop 升级 风险 


Hadoop 升级 最 主要 是 HDFS HHA, HDFS 的 升级 是 否 成 功 ， 才 
是 升级 的 关键 ， 如 果 升 级 出 现 数据 丢失 ， 则 其 他 升级 就 变 得 毫 无 意义 。 


8.1.2. HDFS 的 数据 和 元 数据 升级 


HDFS 是 一 种 分 布 式 文件 系统 层 ， 可 对 集群 节点 间 的 存储 和 复制 进行 
协调 。HDEFS 确保 了 无 法 避免 的 节点 故障 发 生 后 数据 依然 可 用 ， 可 将 其 用 
作 数 据 来 源 ， 可 用 于 存储 中 间 态 的 处 理 结果 ， 并 可 存储 计算 的 最 终结 果 。 


a 


a 


a 


"FAX hadoop2.4.1, ${HADOOP_HOMOE}/etc/hadoop/hdfs-site.xml 
文件 中 dfs.namenode.name.dir 和 dfs.datanode.data.dir 属性 的 值 
分 别 指向 Hadoopl.x f${HADOOP_HOME}/conf/hdfs-site.xml 
文件 中 dfs.name.dir 和 dfs.data.dir 的 值 。 

升级 namenode: /usr/local/hadoop 2.4.1/sbin/hadoop-daemon.sh start 
namenode -upgrade。 

升级 datanode: /usr/local/hadoop 2.4. l/sbin/hadoop-daemon.sh start 


datanode. 


升级 HDFS 花费 的 时 间 不 长 ， 就 是 比 启动 集群 的 时 间 要 多 2 一 3 fii 
的 时 间 ， 升 级 丢失 数据 的 风险 几乎 没有 。 有 具体 可 以 参考 如 下 代码 。 


口 


口 


namenode 升级 : org.apache.hadoop.hdfs.server.namenode.FSImage. 
doUpgrade (如 果 想 查看 apache hadoop 版 本 是 否 可 以 升级 到 

hadoop2.4.1， 可 以 在 这 里 查阅 代码 判断 ，apache Hadoop 0.20 
以 上 的 都 可 以 升级 到 apache hadoop 2.4.1)。 

datanode 升级 :org.apache.hadoop.hdfs.serverdatanode.DataStorage-. 

doUpgrade org.apache.hadoop.hdfs.server.datanode.BlockSender。 


如 果 升 级 失败 , 可 以 随时 回 滚 , 数据 会 回 滚 到 升级 前 那 一 刻 的 数据 ， 


eo 
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升级 后 的 数据 修改 ， 全 部 失效 ， 回 滚 启动 步骤 如 下 。 

(1) 启动 namenode: /usr/local/hadoopl.0.2/bin/hadoop-daemon.sh start 
namenode -rollback. 

(2) 启动 datanode: /usr/ local/hadoop1.0.2/bin/hadoop-daemon.sh 
start datanode —rollback. 


8.1.3. YARN 升级 配置 


YARN 是 Yet Another Resource Negotiator 〈 另 一 个 资源 管理 器 ) 的 
缩写 ， 可 充当 Hadoop 堆栈 的 集群 协调 组 件 。 该 组 件 负责 协调 并 管理 底 
层 资源 和 调度 作业 的 运行 。 通 过 充当 集群 资源 的 接口 ，YARN 使 得 用 户 
能 在 Hadoop 集群 中 使 用 比 以 往 的 迭代 方式 更 多 类 型 的 工作 负载 。 

由 于 任务 计算 都 是 使 用 Hive， 所 以 YARN 的 升级 很 简单 ， 只 是 启 
动 YARN 即 可 。 唯 一 要 注意 的 是 ， 从 MapReduce 升级 到 YARN， 资 源 
分 配方 式 变化 了 ， 所 以 要 根据 自己 的 生产 环境 修改 相关 的 资源 配置 。 
YARN 的 兼容 问题 ， 遇 到 的 很 少 。 

反而 在 任务 计算 中 遇 到 更 多 问题 的 是 Hive, Hive 的 版 本 从 0.10 升 
级 到 0.13， 语 法 更 加 苛刻 、 严 格 ， 所 以 升级 前 ， 尽 可 能 测试 Hive MAE 
"RE, Hive 0.13 可 以 运行 在 Hadoop 1.02 版 本 上 , 所 以 升级 到 Hadoop 2 
版 本 之 前 ， 先 升级 Hive 到 Hive 0.13 版 本 以 上 ， 遇 到 问题 ， 也 没什么 好 
办 法 ， 一 般 就 是 修改 Hive SQL， 修 改 Hive 参数 。 

YARN 任务 无 故 缓慢 ， 一 个 简单 任务 本 来 需要 30 秒 ， 经 常会 出 现 5 
分 钟 都 无 法 跑 成 功 的 现象 。 经 过 跟踪 ， 发现 是 nodemanager 启动 container 
时 ， 初 始 化 container C FE jar 包 ， 下 载 job 描述 文件 ) 代码 是 同步 ， 
修改 代码 ， 把 初始 化 container 的 操作 修改 为 并 发 ， 可 以 解决 该 问题 。 
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Apache Spark 是 一 个 围绕 速度 、 易 用 性 和 复杂 分 析 构 建 的 大 数据 处 
理 框架 。 最 初 在 2009 年 由 加 州 大 学 伯克利 分 校 的 AMPLab 开发 ， 并 于 
2010 年 成 为 Apache 的 开源 项 目 之 一 。 与 Hadoop 和 Storm 等 其 他 大 数 
据 和 MapReduce 技术 相 比 ，Spark 有 如 下 优势 。 

首先 ，Spark 提供 了 一 个 全 面 、 统 一 的 框架 用 于 管理 各 种 有 着 不 同 
性 质 (文本 数据 、 图 表 数 据 等 ) 的 数据 集 和 数据 源 (批量 数据 或 实时 的 
流 数据 ) 的 大 数据 处 理 的 需求 。 

Spark 可 以 将 Hadoop 集群 中 的 应 用 在 内 存 中 的 运行 速度 提升 100 
倍 ， 甚 至 能 够 将 应 用 在 磁盘 上 的 运行 速度 提升 10 倍 。 


Spark 让 开发 者 可 以 快速 地 用 Java. Scala 或 Python 编写 程序 。 它 
本 身 自 带 了 一 个 数量 超过 80 个 的 高 阶 操 作 符 集合 ， 而 且 还 可 以 用 它 在 
shell 中 交互 式 地 查询 数据 。 

除了 Map 和 Reduce 操作 之 外 ， 它 还 支持 SQL 查询 、 流 数据 、 机 
器 学 习 和 图 表 数 据 处 理 。 开 发 者 可 以 在 一 个 数据 管道 用 例 中 单独 使 用 某 
一 能 力 或 者 将 这 些 能 力 结合 在 一 起 使 用 。 


8.2.1 Spark 特性 


Spark 通过 在 数据 处 理 过 程 中 成 本 更 低 的 洗 牌 (Shuffle) 方式 ， 将 
MapReduce 提升 到 一 个 更 高 的 层次 。 利 用 内 存 数据 存储 和 接近 实时 的 处 
理 能 力 ，Spark 比 其 他 的 大 数据 处 理 技术 的 性 能 要 快 很 多 倍 。 

Spark 还 支持 大 数据 查询 的 延迟 计算 ， 这 可 以 帮助 优化 大 数据 处 理 
流程 中 的 处 理 步骤 。Spark 还 提供 高 级 的 API 以 提升 开发 者 的 生产 力 ， 
除 此 之 外 ， 还 为 大 数据 解决 方案 提供 一 致 的 体系 架构 模型 。 

Spark 将 中 间 结 果 保 存在 内 存 中 而 不 是 将 其 写 入 磁盘 ， 当 需要 多 次 
处 理 同 一 数据 集 时 ， 这 一 点 特别 实用 。Spark BE TEI SEL Ae BE RT UAE 
内 存 中 又 可 以 在 磁盘 上 工作 的 执行 引擎 。 当 内 存 中 的 数据 不 适用 时 ， 
Spark 操作 符 就 会 执行 外 部 操作 。Spark 可 以 用 于 处 理 大 于 集群 内 存 容 
量 总 和 的 数据 集 。 

Spark 会 尝试 在 内 存 中 存储 尽 可 能 多 的 数据 然后 将 其 写 入 磁盘 。 它 
可 以 将 某 个 数据 集 的 一 部 分 存 入 内 存 而 剩余 部 分 存 入 磁盘 。 开 发 者 需要 
根据 数据 和 用 例 评估 对 内 存 的 需求 。Spark 的 性 能 优势 得 益 于 这 种 内 存 
中 的 数据 存储 。 

Spark 的 其 他 特性 包括 以 下 方面 。 
支持 比 Map 和 Reduce 更 多 的 函数 。 
优化 任意 操作 算 子 图 (operator graphs). 

可 以 帮助 优化 整体 数据 处 理 流 程 的 大 数据 查询 的 延迟 计算 。 
提供 简明 、 一 致 的 Scala、Java 和 Python API. 
提供 交互 式 Scala 和 Python Shell。 目 前 暂 不 支持 Java. 

Spark 是 用 Scala 程序 设计 语言 编写 而 成 ,运行 于 Java 虚拟 机 (JVM) 
环境 之 上 。 目 前 支持 编写 Spark 应 用 的 程序 语言 有 以 下 几 种 。 

Q Scala. 

Java. 
Python. 
Clojure. 
Reo 


OOOO DO 


Oooo 





8.2.2 Spark 生态 系统 


除了 Spark 核心 API ZH, Spark 生态 系统 中 还 包括 其 他 附加 库 ， 可 
以 在 大 数据 分 析 和 机 器 学 习 领 域 提供 更 多 的 能 力 。 这 些 库 包 括 以 下 方面 。 
(1) Spark Streaming 
Spark Streaming 基于 微 批量 方式 的 计算 和 处 理 , 可 以 用 于 处 理 实时 
的 流 数据 。 它 使 用 DStream， 简 单 来 说 ， 就 是 一 个 弹性 分 布 式 数据 集 
(RDD) 系列 ， 处 理 实时 数据 。 
(2) Spark SQL 
Spark SQL 可 以 通过 JDBC API 将 Spark 数据 集 暴 露出 去 ， 而 且 还 
可 以 用 传统 的 BI 和 可 视 化 工具 在 Spark 数据 上 执行 类 似 SQL 的 查询 。 
用 户 还 可 以 用 Spark SQL 对 不 同 格式 的 数据 (如 JSON、Parquet 以 及 数 
据 库 等 ) 执行 ETL， 将 其 转化 ， 然 后 暴露 给 特定 的 查询 。 
(3) Spark MLlib 
MLlib 是 一 个 可 扩展 的 Spark 机 器 学 习 库 ， 由 通用 的 学 习 算 法 和 工 
具 组 成 ， 包 括 二 元 分 类 、 线 性 回归 、 聚 类 、 协 同 过 滤 、 梯 度 下 降 以 及 底 
层 优化 原 语 。 
(4) Spark GraphX 
GraphX 是 用 于 图 计算 和 并 行 图 计算 的 新 的 〈alpha) Spark API. 38 
过 引入 弹性 分 布 式 属性 图 (Resilient Distributed Property Graph)， 一 种 
顶点 和 边 都 带 有 属性 的 有 向 多 重 图 ,扩展 了 Spark RDD。 为 了 支持 图 计 
算 ，GraphX 暴露 了 一 个 基础 操作 符 集 合 ( 如 subgraph、joinVertices 和 
aggregateMessages) 和 一 个 经 过 优化 的 Pregel API 变 体 。 此 外 ，GraphX 
还 包括 一 个 持续 增长 的 用 于 简化 图 分 析 任 务 的 图 算法 和 构建 器 集合 。 


8.3 Hive SOL 升级 管理 


Hive 是 基于 Hadoop 构建 的 一 套数 据 仓库 分 析 系 统 , 它 提供 了 丰富 
的 SQL 查询 方式 来 分 析 存 储 在 Hadoop 分 布 式 文件 系统 中 的 数据 , 可 以 
将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 完整 的 SQL 查询 功 
能 , 可 以 将 SQL 语句 转换 为 MapReduce 任务 进行 运行 , 通过 自己 的 SQL 
去 查询 分 析 需 要 的 内 容 , 这 套 SQL 简称 Hive SQL, 使 不 熟悉 MapReduce 
的 用 户 可 以 很 方便 地 利用 SQL 语言 查询 、 汇 总 、 分 析 数 据 。 而 MapReduce 
开发 人 员 可 以 把 自己 写 的 mapper 和 reducer 作为 插件 来 支持 Hive 做 更 


复杂 的 数据 分 析 。 

它 与 关系 型 数据 库 的 SQL 略 有 不 同 ， 但 支持 了 绝 大 多 数 的 语句 如 
DDL、DML 以 及 常见 的 聚合 函数 、 连 接 查 询 、 条 件 查询 。Hive 不 适合 
用 于 联机 〈online) 事务 处 理 ， 也 不 提供 实时 查询 功能 。 它 最 适合 应 用 
在 基于 大 量 不 可 变数 据 的 批 处 理 作 业 。 

Hive 的 特点 具有 可 伸缩 (在 Hadoop 的 集群 上 动态 添加 设备 )、 可 
扩展 、 容 错 ， 以 及 输入 格式 的 松散 耦合 。 


8.3.1 Hive SQL 体系 结构 


Hive SQL 主要 分 为 以 下 几 个 部 分 。 
(OD 用 户 接 口 
用 户 接口 主要 有 3 个 : CLI, Client 和 WUI。 其 中 最 常用 的 是 CLI, 
CLI 启动 时 ， 会 同时 启动 一 个 Hive 副本 。Client 是 Hive 的 客户 端 ， 用 
户 连 接 至 Hive Server。 在 启动 Client 模式 时 ， 需 要 指出 Hive Server 所 
在 节点 , 并 且 在 该 节点 启动 Hive Server。WUI 是 通过 浏览 器 访问 Hive. 
(2) 元 数据 存储 
Hive 将 元 数据 存储 在 数据 库 中 ， 如 MySQL、derby。Hive 中 的 元 
数据 包括 表 的 名 字 ， 表 的 列 和 分 区 及 其 属性 ， 表 的 属性 (是否 为 外 部 表 
等 )， 表 的 数据 所 在 目录 等 。 
(3) 解释 器 、 编 译 器 、 优 化 器 、 执 行 器 
解释 器 、 编 译 器 、 优 化 器 完成 HQL 查询 语句 的 词法 分 析 、 语 法 分 
Tr. 编译 ,优化 以 及 查询 计划 的 生成 。 生成 的 查询 计划 存储 在 HDFS H, 
并 在 随后 由 MapReduce 调用 执行 。 执 行 器 在 MapReduce 中 执行 。 
(4) Hadoop 
Hive 的 数据 存储 在 HDFS 中 , 大 部 分 的 查询 由 MapReduce 完成 ( 包 
含 * 的 查询 ， 如 select * from tbl 不 会 生成 MapReduce 任务 )。 


8.3.2 安装 配置 


可 以 下 载 一 个 已 打包 好 的 Hive 稳定 版 ， 也 可 以 下 载 源码 自己 build 
一 个 版 本 。 
(1) 安装 需要 的 环境 
Java 1.6、Java 1.7 或 更 高 版 本 。 
Hadoop 2.x 或 更 高 , 1.x. Hive 0.13 版 本 ， 也 支持 0.20.x 和 0.23.x。 
Linux、Mac、Windows 操作 系统 。 以 下 内 容 适 用 于 Linux 系统 。 





(2) 安装 打包 好 的 Hive 
QD 需要 先 到 apache 下 载 已 打包 好 的 Hive 镜像 ， 然 后 解压 该 文件 。 


$ tar -xzvf hive-x.y.z.tar.gz 

Q) 设置 Hive 环境 变量 。 

$ cd hive-x.y.z$ export HIVE HOME-((pwd)) 
@ WH Hive 运行 路 径 。 

$ export PATH=$HIVE_HOME/bin:$PATH 


(3) 编译 Hive 源码 
下 载 Hive 源码 。 此 处 使 用 maven 编译 ， 需 要 下 载 安 装 maven。 
以 Hive 0.13 版 为 例 ， 编 译 Hive 0.13 源码 基于 hadoop 0.23 或 更 高 


版 本 。 


$cdhive$mvncleaninstall-Phadoop-2,dist$cdpackaging/target/apache-hive-{versi 
on}-SNAPSHOT-bin/apache-hive-{version}-SNAPSHOT-bin$IsLICENSENOTIC 
EREADME.txtRELEASE_NOTES.txtbin/(alltheshellscripts)lib/(requiredjarfiles)co 
nf/(configurationfiles)examples/(sampleinputandqueryfiles)hcatalog/(hcatalogins 
tallation)scripts/(upgradescriptsforhive-metastore) 


编译 Hive 基于 Hadoop 0.20. 


$cdhive$antcleanpackage$cdbuild/dist#lsLICENSENOTICEREADME ..txtRELEA 
SE NOTES .txtbin/(alltheshellscripts)lib/(requiredjarfiles )conf/(configurationfiles) 
examples/(sampleinputandqueryfiles)hcatalog/(hcataloginstallation)scripts/(upgr 
adescriptsforhive-metastore) 


(4) 运行 Hive 
® Hive 运行 依赖 于 Hadoop， 在 运行 Hadoop 之 前 必须 先 配 置 好 


hadoopHome。 


export HADOOP_HOME=<hadoop-install-dir> 


@ 在 HDFS 上 为 Hive 创 建 \tmp H 3& fl/user/hive/warehouse(akahive. 


metastore.warehouse.dir) 目录 ， 然 后 才 可 以 运行 Hive。 


@ 在 运行 Hive 之 前 设置 HiveHome。 
$ export HIVE_HOME=<hive-install-dir> 
© 在 命令 行 窗口 启动 Hive. 


$ SHIVE HOME/bin/hive 


8.4 ZooKeeper 升级 管理 


ZooKeeper 是 以 Fast Paxos 算法 为 基础 的 ，Paxos 算法 存在 活 锁 的 
问题 ， 即 当 有 多 个 proposer 交错 提交 时 ， 有 可 能 互相 排斥 导致 没有 一 个 
proposer 能 提交 成 功 ， 而 Fast Paxos 做 了 一 些 优化 ， 通 过 选举 产生 一 个 
Leader〈 领 导 者 )， 只 有 Leader 才能 提交 proposer， 具 体 算法 可 见 Fast 
Paxos。 因 此 ， 要 想 弄 懂 ZooKeeper 首先 得 对 Fast Paxos 有 所 了 解 。 

ZooKeeper 的 基本 运转 流程 如 下 。 
选举 Leader。 
同步 数据 。 
选举 Leader 过 程 中 算法 有 很 多 ， 但 要 达到 的 选举 标准 是 一 致 的 。 
Leader 要 具有 最 高 的 执行 ID， 类似 root 权限 。 

Q 集群 中 大 多 数 的 机 器 得 到 响应 并 follow 选 出 的 Leader. 

本 文 介绍 的 ZooKeeper 是 以 3.2.2 这 个 稳定 版 本 为 基础 ， 最 新 的 版 
本 可 以 通过 官网 http://hadoop.apache.org/zookeeper/ 来 获取 ，ZooKeeper 
的 安装 非常 简单 .下面 将 从 单机 模式 和 集群 模式 两 个 方面 介绍 ZooKeeper 
的 安装 和 配置 。 


8.4.1. 单机 模式 


口 
口 
口 
口 


单机 安装 非常 简单 , 只 要 获取 到 ZooKeeper 的 压缩 包 并 解压 到 某 个 
目录 如 /home/zookeeper-3.2.2 下 ，ZooKeeper 的 启动 脚本 在 bin 目录 下 ， 
Linux 下 的 启动 脚本 是 zkServer.sh, 在 3.2.2 这 个 版 本 中 ZooKeeper 没有 
提供 Windows 下 的 启动 脚本 ， 所 以 要 想 在 Windows 下 启动 ZooKeeper 
要 自己 手工 写 一 个 ， 代 码 如 下 所 示 。 

Windows 下 ZooKeeper 启动 脚本 : 


setlocal 

set ZOOCFGDIR=%~dp0%..\conf 

set ZOO_LOG_DIR=%~dp0%.. 

set ZOO LOG4J PROP-INFO,CONSOLE 
set CLASSPATH=%ZOOCFGDIR% 


set CLASSPATH=%~dp0..\*;%~dp0. .\lib\*;%CLASSPATH% 

set CLASSPATH=%~dp0..\build\classes;%~dp0..\build\lib\*;%CLASSPATH% 
set ZOOCFG=%ZOOCFGDIR%\zoo.cfg 

set ZOOMAIN=org.apache.zookeeper.server.ZooKeeperServerMain 

java "-Dzookeeper.log.di=%ZOO_LOG_DIR%" "-Dzookeeper.root.logger=%ZOO _ 
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LOG4J_PROP%" 
-cp "%CLASSPATH%" %ZOOMAIN% "%ZOOCFG%" %* 
endlocal 


在 执行 启动 脚本 之 前 ， 还 有 几 个 基本 的 配置 项 需要 配置 一 下 ， 
ZooKeeper 的 配置 文件 在 conf 目录 下 , 这 个 目录 下 有 zoo sample.cfg 和 
log4j.properties 文件 ， 需 要 做 的 就 是 将 zoo sample.cfg 改名 为 zoo.cfg， 
因为 ZooKeeper 在 启动 时 会 找 这 个 文件 作为 默认 配置 文件 。 下面 详细 介 
绍 一 下 这 个 配置 文件 中 各 个 配置 项 的 意义 。 

tickTime=2000 


dataDir=D:/devtools/zookeeper-3.2.2/build 
clientPort=2181 


O tickTime: 这 个 时 间 是 作为 ZooKeeper 服务 器 之 间或 客户 端 与 
服务 器 之 间 维 持 心跳 的 时 间 间 隔 , 也 就 是 每 个 tickTime 时 间 就 
会 发 送 一 个 心跳 。 
O dataDir: 顾名思义 ， 就 是 ZooKeeper 保存 数据 的 目录 ， 默 认 情 
况 下 ，ZooKeeper 将 写 数据 的 日 志文 件 也 保存 在 这 个 目录 里 。 
口 clientPort: 这 个 端口 就 是 客户 端 连接 ZooKeeper 服务 器 的 端口 ， 
ZooKeeper 会 监听 这 个 端口 ， 接 受 客户 端的 访问 请 求 。 
当 这 些 配 置 项 配置 好 后 , 就 可 以 启动 ZooKeeper T, 启动 后 要 检查 
ZooKeeper 是 否 已 经 在 服务 ， 可 以 通过 netstat — ano 命令 查看 是 否 有 了 配 
置 的 clientPort 端口 在 监听 服务 。 


8.4.2 ”集群 模式 


ZooKeeper 不 仅 可 以 单机 提供 服务 ， 同 时 也 支持 多 机 组 成 集群 来 提 
供 服务 。 实 际 上 ZooKeeper 还 支持 另外 一 种 伪 集 群 的 方式 , 也 就 是 可 以 
在 一 台 物 理 机 上 运行 多 个 ZooKeeper 实例 。 下面 将 介绍 集群 模式 的 安装 
和 配置 。 

ZooKeeper 的 集群 模式 的 安装 和 配置 也 不 是 很 复杂 ， 所 要 做 的 就 是 
增加 几 个 配置 项 ,集群 模式 除了 上 面 的 3 个 配置 项 还 要 增加 下 面 几 个 配 
BÀ: 

initLimit=5 

syncLimit=2 

server.1=192.168.211.1:2888:3888 

server.2-192.168.211.2:2888:3888 


O initLimit: 这 个 配置 项 是 用 来 配置 ZooKeeper 接受 客户 端 (这 


里 所 说 的 客户 端 不 是 用 户 连 接 ZooKeeper 服务 器 的 客户 端 ， 而 
是 ZooKeeper 服务 器 集群 中 连接 到 Leader 的 Follower 服务 器 ) 
初始 化 连接 时 最 长 能 忍受 多 少 个 心跳 时 间 间 隔 数 。 当 已 经 超过 
10 个 心跳 的 时 间 ( 也 就 是 tickTime) 长 度 后 ZooKeeper 服务 器 
还 没有 收 到 客户 端的 返回 信息 ， 那 么 表明 这 个 客户 端 连接 失 
败 。 总 的 时 间 长 度 就 是 5x2000 毫秒 =10 秒 。 
O syncLimit: 这 个 配置 项 标识 Leader 与 Follower 之 间 发 送 消息 ， 
请 求 和 应 答 时 间 长 度 , 最 长 不 能 超过 多 少 个 tickTime 的 时 间 长 
度 。 总 的 时 间 长 度 就 是 2x2000 毫秒 =4 秒 。 
口 server.A=B: C: D: 其 中 A 是 一 个 数字 ， 表 示 这 个 是 第 几 号 服 
务 器 ; B 是 这 个 服务 器 的 IP 地 址 ; C 表示 的 是 这 个 服务 器 与 集 
群 中 的 Leader 服务 器 交换 信息 的 端口 ; D 表示 的 是 万 一 集群 中 
的 Leader 服务 器 挂 了 , 需要 一 个 端口 来 重新 进行 选举 , 选 出 一 
个 新 的 Leader, 而 这 个 端口 就 是 用 来 执行 选举 时 服务 器 相互 通 
信 的 端口 。 如 果 是 伪 集 群 的 配置 方式 ， 由 于 B 都 是 一 样 ， 不同 
的 Zookeeper 实例 通信 端口 号 不 能 一 样 ， 所 以 要 给 它们 分 配 不 
同 的 端口 号 。 
除了 修改 zoo.cfg 配置 文件 ， 集 群 模式 下 还 要 配置 一 个 文件 myid， 
这 个 文件 在 dataDir 目录 下 ， 这 个 文件 里 面 就 有 一 个 数据 是 A 的 值 ， 
ZooKeeper 启动 时 会 读 取 这 个 文件 ， 拿 到 里 面 的 数据 与 zoo.cfg 里 面 的 
配置 信息 比较 从 而 判断 到 底 是 哪个 Server。 


85 ”作业 与 练习 


一 、 填 空 题 
1. Hadoop 是 一 个 分 布 式 系统 基础 架构 ， 由 基金 会 开发 。 
2. HDFS 是 一 种 文件 系统 层 ， 可 对 间 的 存储 和 复制 


进行 协调 。HDFS 确保 了 无 法 避免 的 _ 发 生 后 数据 依然 可 用 ， 可 将 
其 用 作 数 据 来 源 , 可 用 于 存储 中 间 态 的 处 理 结果 ,并 可 存储 计算 的 最 终 
结果 。 

3. Spark 是 一 个 围绕 构建 的 大 数据 处 理 框架 。 
最 初 在 2009 年 由 的 AMPLab 开发 ， 并 于 2010 年 
成 为 的 开源 项 目 之 一 。 

4. ZooKeeper 主要 有 包括  _ 模式 和 HEX. 





二 、 问 答题 

1. 请 简要 描述 Hadoop 的 主要 特点 。 

2. 请 简要 描述 Spark 的 主要 特点 并 说 明 Spark 的 生态 系统 。 
3. 请 简要 描述 Hive SQL 的 体系 结构 。 
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服务 资源 管理 


在 大 数据 系统 中 ， 服 务 资源 管理 共有 6 种 ， 主 要 包括 财务 、 人 力 资 
源 、 合 作 伙伴 、 信 息 技 术 、 基 础 设施 、 工 作 环境 等 方面 的 管理 。 本 章 将 
着 重 介绍 如 何 通 过 服务 资源 管理 的 灵活 运用 , 来 帮助 企业 更 好 地 运营 大 
数据 系统 。 


9.1 业务 能 力 管理 


业务 管理 是 指 公司 在 生产 、 投 资 、 服 务 、 劳 动 和 财务 等 业务 流程 过 
程 中 按照 有 效 标准 实施 、 调 整 、 控 制 等 进行 管理 活动 的 管理 。 业 务 能 力 
是 运营 体系 运行 的 重心 部 分 , 始 于 采购 供应 , 中 间 涉 及 产品 生产 和 储备 ， 
下 游 至 产品 的 服务 售后 等 ， 都 在 运营 的 过 程 中 实现 。 因此， 业务 能 力 的 
管理 是 决策 和 管理 的 关键 。 

本 节 将 主要 介绍 在 大 数据 系统 的 运营 维护 中 , 如 何 做 好 业务 能 力 的 
管理 。 主 要 包括 两 个 部 分 : 业务 需求 评估 和 业务 需求 趋势 预测 。 


9.1.1 业务 需求 评估 


在 大 数据 时 代 , 企业 面临 可 用 信息 不 足 等 问题 , 大 量 的 数据 被 忽略 ， 
处 理 不 当 或 未 被 使 用 。 许 多 公司 通过 不 完整 或 不 可 信 的 信息 来 做 出 重大 
的 决定 。 业 务 需求 分 析 引 在 促进 企业 业务 识别 和 策略 优化 ,帮助 企业 进 
行 绩效 管理 、 信 息 管理 和 内 容 管 理 ， 提 高 效率 ， 实 施主 动 风险 管理 ， 实 
现 智能 化 , 帮助 企业 更 准确 地 预测 结果 , 发 现 更 多 之 前 无 法 预测 的 商机 。 
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174 大 数据 系统 运 维 — 


做 好 需求 评估 , 需要 先 做 好 需求 收集 。 围绕 大 数据 系统 , 展开 需求 收集 ， 
需求 收集 的 主要 作用 是 为 项 目 定义 业务 范围 莫 定 基础 , 记录 并 管理 关系 
人 的 需求 ， 最 终 实 现 项 目 目 标 。 

需求 收集 好 后 , 可 以 根据 实际 情况 ,运用 不 同 的 方法 进行 需求 评估 ， 

包括 以 下 几 种 。 

口 研讨 会 。 研 讨 会 能 够 对 客户 的 业务 需求 进行 快速 定位 ， 在 讨论 
过 程 中 ， 参 与 人 之 间 可 以 充分 交流 意见 ， 建 立信 任 ， 有 助 于 参 
与 人 之 间 改 进 关 系 ， 从 而 达成 意见 一 致 ， 及 时 发 现 问题 ， 更 好 
地 解决 问题 。 

O 头脑 风暴 法 。 将 收集 的 需求 产生 多 种 创意 的 技术 ， 有 助 于 参与 
者 对 需求 有 更 深入 的 了 解 ， 同 时 对 需求 进行 评估 。 

O 群体 决策 。 群体 决策 在 业务 需求 评估 中 体现 为 对 执行 方案 进行 
评估 的 过 程 ， 达 成 菜 种 结果 ， 把 企业 期 望 与 业务 现状 相 结 合 。 
根据 专家 问卷 ， 汇 总 需求 结果 ， 若 群体 中 超过 半数 的 人 投 赞成 
票 ， 则 做 出 决策 。 

O 标杆 对 照 。 标 杆 对 照 是 与 行业 内 的 其 他 企业 进行 比较 的 过 程 ， 
通过 将 实际 的 企业 计划 进行 比较 ， 从 中 识别 出 最 佳 实践 ， 形 成 
针对 已 有 方案 的 改进 意见 ， 并 为 企业 业务 需求 评估 进行 有 针对 
性 的 考核 。 


9.1.2 ”业务 需求 趋势 预测 


业务 需求 是 不 断 变化 的 , 服务 于 业务 需求 的 大 数据 系统 也 是 不 断 变 
化 着 的 。 对 业务 需求 进行 趋势 预测 ， 有 助 于 对 系统 进行 前 瞻 性 的 规划 、 
管理 ,使 得 在 不 久 的 将 来 有 望 继续 保持 公司 预期 水 平 ， 并 成 为 业务 规划 
和 控制 决策 的 基础 。 业 务 需 求 预测 与 生产 经 营 密切 相关 。 业 务 需 求 趋势 
预测 的 常见 方法 有 如 下 几 种 。 

CD 业务 分 析 法 

业务 分 析 在 每 个 应 用 领域 都 有 一 种 或 多 种 普遍 接受 的 方法 来 改变 
业务 需求 , 包括 对 系统 工程 和 价值 工程 进行 系统 性 的 分 析 ， 以 及 对 产品 
和 需求 的 局 部 性 分 析 。 

(2) 状态 评估 法 

这 种 做 法 假设 企业 必须 维持 原 有 的 生产 和 生产 技术 不 变 , 公司 必须 处 
于 相对 稳定 的 状态 , 即 目 前 与 大 量 人 员 和 公司 合作 的 公司 的 份额 必须 满足 
市 场 业 务 规划 的 需要 。 因 此 ， 预 测 业务 必须 衡量 业务 规划 期 间 的 变化 。 

(3) 专家 讨论 法 

专家 讨论 法 适用 于 长 期 业务 需求 预测 。 通 过 抓 住 技 术 发 展 的 趋势 ， 


相关 领域 的 技术 人 员 更 有 可 能 预测 这 一 领域 的 经 营 情况 。 讨论 可 分 两 次 
进行 ， 二 次 讨论 旨 在 提升 预测 信 度 。 在 第 一 次 讨论 中 ， 专 家 们 独立 自主 
地 对 技术 发 展 计划 进行 了 预测 ， 相 关 管 理 人 员 将 组 织 这 些 计 划 。 二 次 讨 
论 主 要 是 基于 公司 的 需求 计划 , 以 满足 业务 需求 的 相关 讨论 及 专家 预测 。 

(4) 经 验 法 

经 验 预 测 方法 适用 于 相对 稳定 的 小 企业 。 该 方法 主要 利用 现 有 信息 
和 数据 ， 并 结合 公司 的 实际 特点 ， 来 预测 公司 未 来 的 业务 需求 。 结 果 表 
明 , 经 验 和 历史 数据 对 于 提高 预测 准确 性 和 减少 错误 的 影响 更 大 。 这 种 
方法 适合 于 在 某 一 时 期 发 展 的 情况 下 ,公司 整体 方向 变化 不 大 , 通常 用 
于 短期 预测 。 

(5) 工作 研究 法 

工作 研究 预测 法 是 根据 具体 情况 对 公司 的 工作 内 容 和 任务 区 域 进 
行 分 析 预 测 。 研 究 预测 方法 的 关键 是 工作 内 容 的 准确 描述 , 科学 的 工作 
分 析 , 商业 市 场 标准 的 制定 。 如 果 公 司 的 结构 相对 简单 , 业务 能 力 明 显 ， 
研究 和 分 析 工 作 更 容易 实施 。 

(6) 管理 评级 法 

管理 评估 是 预测 主观 过 程 中 最 常见 的 业务 需求 。 一 定时 期 企业 对 人 
力 资源 的 需求 由 总 经 理 、 业 务 单位 经 理 和 专员 组 成 。 管 理 评 估 程 序 可 以 
分 为 自 下 向 上 反馈 和 自 上 而 下 反馈 的 两 种 方法 。 根 据 业 务 需求 提高 公司 
的 管理 认 知 发 展 目标 、 组 织 策略 和 框架 条 件 预测 ， 主 要 根据 目标 公司 的 
生产 、 销 售 或 服务 规模 等 业务 要 求 为 基础 进行 预测 。 这 种 方法 的 主要 缺点 
是 : 强大 的 主观 性 ， 受 到 个 人 决定 的 影响 ， 根 据 经 验 和 判断 力 。 该 方法 在 
短期 预测 中 广泛 使 用 ， 预 测 结果 可 以 与 其 他 预测 方法 的 结果 相 结 合 使 用 。 

(7) 微分 法 

微 整合 方法 是 组 织 不 同 部 门 ， 对 未 来 时 期 的 各 种 业务 需求 进行 分 
析 ， 各 部 门 一 起 形成 整个 预测 方案 。 这 种 方法 从 上 到 下 安排 根据 部 门 
业务 发 展 需要 的 需求 预测 部 门 负 责 人 的 工作 ， 以 预测 公司 的 未 来 需求 ， 
然后 从 下 一 步 到 报告 , 预测 和 总 结 适用 于 短期 预测 , 组 织 结构 相对 稳定 
的 公司 。 

(8) 情景 描述 法 

情景 描述 法 是 构建 一 个 情景 模型 ,建立 假定 条 件 , 对 企业 日 后 的 战 
略 目标 调整 和 环境 变化 等 情景 进行 需求 预测 。 情景 描述 在 当 业 务 需 求 改 
变 、 环 境 变化 或 组 织 变化 时 经 常 使 用 到 。 

(9) 驱动 因素 法 

该 方法 的 原则 是 根据 公司 基本 特征 有 关 的 因素 对 公司 的 活动 或 工 
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作 量 进行 管理 ， 从 而 确定 公司 的 经 营 要 求 。 驱 动因 素 预测 方法 主要 有 3 
个 步骤 : 一 是 找 出 驱动 因素 , 包括 生产 变化 (单位 或 收入 数量 , 生产 销售 ， 
完结 项 目 , 交易 等 ), 服务 质量 与 客户 关系 变化 (规模 ,持续 时 间 , 质量 )， 
新 资本 投资 的 影响 设备， 技术 等 )， 二 是 分 析 驱 动因 素 和 业务 需求 之 间 
的 联系 ; 三 是 预测 驱动 因素 ， 根 据 预 测 因素 的 影响 从 而 预测 业务 需求 。 


9.2 ”服务 能 力 管理 


服务 能 力也 称 最 大 产 出 率 , 大 数据 系统 的 服务 能 力 管 理 是 指 调节 系 
统 提 供 服务 的 能 力 , 使 之 与 不 断 更 新 的 外 部 需求 变化 相 匹 配 , 使 得 系统 
能 够 最 大 效率 地 提供 服务 产 出 。 具 体 来 说 ， 包 括 人 员 能 力 、 服 务 成 本 、 
技术 与 工具 3 个 部 分 。 


9.2.1 人员 和 能力 动态 管理 


大 数据 系统 服务 的 特征 之 一 就 是 服务 提供 人 与 客户 密 不 可 分 。 在 提 
供 服务 产品 的 过 程 中 ,员工 是 一 个 不 可 或 缺 的 因素 ， 负 责 与 客户 接触 的 
员工 对 客户 和 服务 企业 都 起 着 决定 性 作用 , 对 于 服务 机 构 它们 是 唯一 的 
使 服务 有 区 别 于 竞争 对 手 的 方式 , 也 有 可 能 是 失去 客户 的 原因 所 在 , € 
们 代表 着 公司 ,直接 影响 客户 满意 度 。 对 于 人 员 能 力 动态 管理 有 以 下 几 
种 措施 。 

C1) 观察 交谈 

通过 该 方法 , 项 目 管理 团队 可 以 对 成 员 的 个 人 产 出 价值 、 人 际 交 往 
关系 等 有 更 加 深入 的 了 解 ， 由 此 全 面 监测 、 把 控 项 目 进展 。 

(2) 绩效 评估 

在 工作 过 程 中 , 绩效 评估 是 有 效 凸 显 个 人 能 力 的 一 种 评估 方法 ,向 
团队 成 员 传达 关键 性 反馈 ， 对 正式 或 非 正式 项 目 进行 绩效 评估 ， 确 定 日 
后 的 个 人 成 长 路 径 和 发 展 目标 。 个 人 绩效 评估 和 从 事项 目的 时 间 长 短 、 
工作 的 难 易 程 度 、 组 织 政 策 、 官 方 的 劳动 合同 约定 等 有 重要 的 关联 。 

(3) 冲突 管理 

冲突 贯穿 于 项 目的 整个 过 程 ， 在 所 难免 。 冲 突 的 来 源 多 种 多 样 ， 有 
因为 项 目 资源 的 稀缺 性 导致 的 项 目 成 员 之 间 产 生 的 资源 争夺 冲突 , 有 因 
为 优先 级 排序 导致 的 进度 冲突 , 也 有 因为 个 人 工作 风格 差异 导致 的 个 人 
冲突 ， 这 些 都 会 阻碍 项 目 进度 。 冲 突 虽 然 不 可 避免 ， 但 通过 成 熟 的 团队 
规则 进行 约束 ,以 及 最 大 发 挥 项 目 管理 实践 的 作用 , 可 以 明显 降低 冲突 
带 来 的 损失 。 冲 突 本 质 上 不 是 一 件 坏 事 ， 如 果 管理 得 当 , 意见 分 歧 之 类 


的 冲突 反而 有 利于 提高 成 员 之 间 的 工作 效率 。 在 冲突 管理 的 过 程 中 , 需要 
项 目 经 理 提 供 协 助 ， 一旦 发 生 冲 突 ， 立即 介入 ,通过 私下 处 理 的 方式 , 对 
冲突 进行 管理 ,一 旦 失去 控制 , 则 应 当 使 用 事先 约定 的 规范 进行 强制 惩戒 。 

(4) 人 员 培 训 

组 织 的 发 展 离 不 开 人 的 发 展 ， 要 想 保 证 服务 绩效 , 首先 要 关注 员工 
队伍 的 服务 质量 , 关注 员工 的 个 人 综合 能 力 的 提高 。 综 合 能 力 包括 以 下 
几 种 。 

@ 交际 能 力 。 这 是 服务 人 员 的 首要 特质 ， 与 人 交往 就 是 要 善于 与 
客户 沟通 ,建立 良好 的 客户 关系 ， 获 得 可 用 信息 ， 要 采取 适当 的 交往 方 
式 ， 有 正确 的 服务 意识 与 态度 。 

Q 合作 能 力 。 在 工作 中 ， 服 务 人 员 要 与 多 方 建立 合作 关系 ， 如 上 
司 、 下 属 、 同 事 、 顾 客 、 供 应 商 等 ， 这 就 需要 提高 人 员 的 全 局 意识 ， 提 
高 自身 的 沟通 、 协调 意识 , 学 习 开展 多 方 合作 , 最 大 发 挥 各 角色 的 作用 ， 
提升 客户 的 满意 水 平 ， 真 正 发 挥 其 纽带 、 中 介 作 用 。 

@ 学 习 能 力 。 在 工作 过 程 中 对 服务 人 员 也 是 一 种 学 习 的 过 程 ， 服 
务 人 员 在 收集 客户 需求 过 程 中 需要 有 正确 的 服务 意识 和 敏锐 的 洞察 力 。 
快速 适应 市 场 需求 的 变化 ， 努 力 完善 自身 技能 。 

@ 文化 素养 。 服 务 过 程 不 仅 是 一 项 物质 享受 ， 也 是 一 种 精神 文化 
享受 ， 服 务 人 员 应 具备 一 定 的 文化 素养 ， 才 能 够 有 效 地 与 客户 沟通 。 文 
化 知识 越 渊 博 ， 越 能 和 客户 产生 情感 共鸣 。 

© 技术 性 能 力 。 技 术 能 力 是 服务 人 员 的 所 需 技 能 之 一 , 一 般 而 言 ， 
企业 可 以 通过 培训 的 方式 让 服务 人 员 提 高 专业 技能 本 领 。 


9.2.2 ”服务 成 本 动态 管理 


服务 成 本 管理 是 指 制 定 一 系列 的 政策 、 程 序 和 文档 来 管理 和 控制 项 
ERE, 这 为 在 大 数据 系统 进行 服务 成 本 管理 指明 了 方向 。 做 好 服务 成 
本 管理 , 需要 首先 估算 完成 服务 项 目 工作 花费 的 成 本 。 成 本 估算 的 依据 
包括 以 下 几 种 。 

(1) 场景 成 本 估算 

所 有 项 目的 成 本 评估 应 做 出 相对 直观 的 判断 , 该 评估 可 以 一 部 分 为 
起 草 评 估 ， 其 次 可 由 外 部 助手 评估 ， 最 后 精炼 这 些 评估 ， 确 定 客 户 是 否 
能 提供 它们 。 

(2) 人 力 资源 估算 

负责 人 员 的 职能 分 配 、 报 价 以 及 成 本 估算 。 如 果 是 外 部 成 员 应 与 该 
公司 做 出 相应 的 个 人 成 本 估算 。 
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(3) 范围 基准 估算 

服务 团队 从 战略 层 角 度 审核 项 目的 合约 和 假设 。 根 据 成 本 、 有 效 性 、 
开始 日 期 和 结束 日 期 (总 的 时 间 长 度 )、 技 术 说 明 创 建 项 目 需求 评估 。 

(4) 服务 进度 估算 

根据 项 目 进度 计划 ， 把 时 间 格 式 化 到 日 历 表 中 。 将 序列 化 任务 、 资 
源 计 划 、 成 本 评估 和 时 间 评 估 相 综合 。 

(5) 风险 成 本 估算 

风险 成 本 估算 要 考虑 意外 发 生 , 例如 人 员 流 失 、 项 目 验 收 延 时 等 一 
系列 特殊 情况 ， 需 要 考虑 到 成 本 估算 中 。 

(6) 工作 环境 估算 

需要 考虑 环境 因素 ,例如 出 差 , 给 出 机 票 、 住 宿 、 餐 饮 、 出 租车 等 
一 系列 成 本 。 

在 项 目 中 ， 成 本 估算 会 用 到 以 下 几 种 方法 。 


口 


口 


历史 信息 判断 : 专家 基于 历史 过 往 的 项 目 信息 可 以 结合 差异 进 
行 成 本 的 估算 。 

类 比 估 算 : 指 参 考 以 往 类 似 项 目的 基本 要 素 (如 人、 时 间 、 预 
算 等 )， 推 算 现 有 项 目的 成 本 ， 主 要 适用 于 项 目 信息 十 分 缺乏 
的 情况 。 类 比 估算 占用 的 时 间 较 少 ， 估 算 成 本 也 较 低 ， 但 需要 
根据 具体 情况 进行 后 续 的 调整 。 相 比 其 他 的 估算 方法 ， 所 对 应 
的 准确 性 也 相对 较 低 。 

参数 估算 : 参数 估算 是 较为 直接 的 估算 方法 ， 主 要 参考 历史 数 
据 ， 结 合 对 变量 关系 的 分 析 ， 设 计 模 型 进行 估算 。 模 型 的 准确 
度 越 高 ， 参 数 估算 也 越 精确 。 

自 下 而 上 估算 : 自 下 而 上 的 估算 主要 是 通过 对 项 目 中 每 一 个 特 
定 的 项 目 进行 详细 的 估算 ,然后 不 断 汇总 向 上 ， 从 而 形成 整个 
项 目的 估算 。 自 下 而 上 的 估算 方法 通常 取决 于 项 目 单个 活动 或 
工作 包 的 规模 和 复杂 度 。 

三 点 估算 : 首先 ， 分解 出 项 目 中 的 未 定 因素 ; 其 次 ， 使 用 3 种 
估算 值 测量 出 成 本 区 间 ， 以 此 保证 最 终结 果 的 准确 性 。 基 于 3 
种 估算 值 的 估算 公式 为 

项 目 估算 成 本 =( 最 悲观 成 本 + 最 可 能 成 本 + 最 乐观 成 本 )/3 

储备 分 析 : 指 项 目 估算 中 的 应 急 储 备 部 分 ， 用 于 管理 已 知 的 项 
目 风险 。 在 项 目 进行 的 过 程 中 ， 项 目的 已 知 信息 会 越 来 越 多， 
项 目的 预期 也 越 来 越 明 确 ， 相 应 的 ， 应 急 储 备 也 会 随 之 减少 。 


成 本 估算 的 主要 目的 是 为 了 控制 成 本 。 有 效 的 成 本 控制 管理 , 应 着 
眼 于 项 目 成 本 支出 与 实际 工作 完成 的 关系 , 以 及 对 批准 的 成 本 基准 变更 


进行 管理 。 其 作用 是 监督 并 调节 项 目 进展 过 程 中 损耗 的 人 力 、 物 力 、 财 
力 。 要 把 成 本 支出 控制 在 批准 资金 额度 内 ， 把 生产 费用 控制 在 事先 计划 
的 成 本 范围 内 ， 及 时 纠正 成 本 与 绩效 的 偏差 ， 最 终 降 低 项 目 成 本 。 


9.23 ”技术 与 工具 管理 


为 保证 服务 的 效率 和 效果 ， 需 要 做 好 技术 与 工具 管理 。 尤 其 是 对 于 
大 数据 系统 而 言 ， 技 术 与 工具 是 服务 能 力 的 重要 保证 。 

在 技术 管理 方面 ， 参 照 公 司 的 运 维 服务 规划 要 求 ， 制 定 相关 制度 ， 
主要 包括 年 度 技 术 研 发 计划 和 技术 研发 管理 制度 。 年 度 技 术 研 发 计划 不 
仅 包 括 研发 环境 、 人 力 、 资 金 等 计划 ， 还 包括 前 瞻 性 技术 的 开发 与 运用 
等 。 计 划 编 制 完成 后 ， 等 待 公司 审批 ， 审 批 通 过 后 落地 实施 ， 由 人 事 、 
财务 和 质保 部 门 配合 落地 工作 的 开展 ， 由 研发 部 评估 项 目的 执行 情况 。 

在 工具 管理 方面 , 主要 工作 有 运行 维护 工具 , 建立 与 之 匹配 的 用 户 
手册 , 登记 监测 工具 的 日 常 使 用 记录 , 形成 工具 使 用 效果 的 评估 报告 等 。 
工具 主要 包括 运 维 监控 工具 、 过 程 管理 工具 和 专用 工具 。 监控 工具 主要 
负责 收集 并 监控 数据 ,评估 潜在 的 服务 对 象 故障 因素 。 过 程 管理 工具 是 
交付 过 程 中 发 生 的 公司 与 客户 双方 签订 的 SLA 管理 运行 维护 服务 ， 包 
含 日 常 运 维 管理 、 记 录 、 监 督 和 评测 功能 ， 专用 工具 包括 在 公司 服务 要 
求 指导 下 配备 的 安全 工具 和 用 于 特殊 要 求 的 工具 。 


93 ”服务 资源 整合 


在 大 数据 系统 中 , 涉及 到 多 方 的 服务 资源 ,做 好 服务 资源 整合 ， 是 
以 长 期 的 战略 决策 和 市 场 的 进步 为 依据 。 企业 的 发 展 需要 各 种 资源 的 强 
有 力 的 战略 合作 ,将 各 类 资源 整合 优化 。 企业 需要 具备 及 时 调控 企业 资 
源 的 能 力 ， 建 立 动态 策略 ， 从 而 完善 企业 的 战略 规划 。 


9.3.1 不 同 角色 的 责 权 划分 


不 同 的 角色 是 团体 和 组 织 中 项 目 利益 相关 联 的 个 体 , 会 影响 交付 成 
果 和 集体 决策 。 项 目 干 系 人 是 利益 与 项 目 实施 的 过 程 息息相关 的 一 环 ， 
如 客户 、 公 司 领 导 、 项 目 发 起 人 、 上 下 游 供应 商 等 。 他 们 的 利益 受到 项 
目 实施 或 完成 情况 的 影响 , 这 些 影响 或 好 或 坏 , 因此 干系 人 对 项 目 也 存 
在 正 向 和 负 向 两 种 影响 。 项 目 干系 人 可 以 是 和 组 织 息息相关 的 内 部 人 
员 ， 也 可 能 是 其 他 外 部 人 员 。 

在 项 目 不 同 角色 责 权 划分 的 过 程 中 ,要 依据 项 目 角色 的 特点 ， 结 合 
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项 目 本 身 的 实际 需要 ， 进 行 适当 的 划分 。 具 体 来 说 , 项 目 角 色 和 相应 的 
责 权 划分 包括 以 下 几 种 。 

(D 项 目 经 理 

他 的 角色 是 项 目的 领导 ,主要 有 安排 项 目 工 作 进度 ， 对 产品 和 服务 
的 最 终 交 付 负责 等 权利 。 其 中 主要 职责 包括 监测 、 记 录 、 报 告 和 处 理 出 
现 的 问题 。 项 目 经 理 是 项 目 主要 的 联系 人 ， 建 设 团队 与 外 界 环境 联系 ， 
向 团队 传达 和 贯彻 公司 的 政策 及 发 展 战略 等 ， 领 导 团队 成 员 完 成 工作 ， 
传递 知识 技能 ， 激 励 团 队 成 员 ， 同 时 做 好 绩效 考核 ， 进 行 工作 评估 ， 最 
终 提高 整个 团队 的 绩效 。 

(2) 项 目 发 起 人 

项 目 发 起 人 是 批准 该 项 目的 人 ， 提 供 权 限 、 财 政 支持 和 建议 。 项 目 
发 起 人 和 项 目 经 理 共同 为 项 目的 成 功 进行 负责 。 他 们 最 大 限度 地 减少 其 
他 管理 人 员 的 职责 干预 。 客 户 是 支付 或 使 用 该 项 目 成 果 的 个 人 或 组 织 。 
客户 细 分 为 使 用 成 果 的 人 和 批准 成 果 的 人 。 批 准 最 终 产 品 的 客户 是 关键 
项 目 干系 人 。 

(3) 项 目 控制 人 员 

主要 职责 是 跟 进 采集 信息 , 管理 项 目的 现状 和 进程 ， 这 一 职位 要 向 
高 层 管理 者 和 客户 汇报 项 目的 进展 情况 , 对 于 项 目的 按时 完成 有 重要 的 
推进 作用 。 项 目 控制 人 员 先 采集 信息 ， 然 后 对 信息 进行 分 析 ， 以 确认 信 
息 的 可 用 性 ， 之 后 输出 报告 ， 最 后 ， 信 息 由 相关 人 员 整 理 后 形成 项 目 进 
度 报 告 。 在 整个 过 程 中 , 由 项 目 控制 人 员 来 总 体 把 控 采 集 信息 的 准确 率 。 

(4) 团队 成 员 

成 员 是 项 目 团队 中 的 关键 构成 , 他 们 的 主要 职责 是 帮助 团队 完成 共 
同 愿 景 ,并 为 团队 愿景 的 实现 尽 己 所 能 。 维护 团队 的 团结 及 共同 努力 成 
果 ; 捍卫 团队 荣誉 ， 严守 团队 机 密 ， 按时 参与 团 会 ， 提 出 建设 性 提议 ， 
与 团队 达成 共识 ; 保证 质量 并 按时 完成 团队 任务 , 努力 为 团队 创造 绩效 。 

(5) 项 目 专 家 

项 目 专家 作为 某 一 专题 的 专家 , 应 该 对 团队 项 目 进行 过 程 中 碰 到 的 
有 关 专 业 性 的 问题 提出 自己 的 看 法 与 建议 , 需要 充分 发 挥 自己 的 经 验 并 
充分 发 挥 自己 的 专业 知识 与 能 力 ; 不 断 深化 学 习 ， 从 理论 到 实践 ， 充 分 
提升 自身 的 专业 化 水 准 ; 强化 与 各 领域 内 专家 的 交流 与 合作 , 拓展 眼界 ; 
用 自己 的 专业 技能 , 努力 克服 面临 的 团队 难题 , 则 在 提升 团队 综合 绩效 、 
加 强 团 队 发 展 。 

(6) 会 计 / 财 务 专家 

负责 项 目 预算 和 有 开支 要 求 的 职员 , 需要 与 此 项 目 干系 人 建立 好 良 


好 的 关系 ， 能 够 保持 文书 工作 的 顺利 进行 。 

项 目的 角色 和 职责 可 以 采用 多 种 方法 来 记录 , 通常 有 以 下 3 类 : 层 
级 型 、 和 矩阵 型 和 文本 型 。 最 终 要 保证 项 目 每 一 个 工作 线 对 应 一 个 明确 的 
责任 人 ， 全 体 团队 成 员 对 自己 有 明确 的 角色 和 职能 定位 ， 有 具体 如 图 9-1 
所 示 。 



























































































































































图 9-1 项 目 角色 和 职责 
9.3.2 用户、 供应 商 、 厂 商 的 典型 协作 方式 


在 大 数据 系统 建设 和 维护 中 ， 用户、 供应 商 、 厂 商 的 典型 协作 方式 
通常 有 以 下 3 种 。 


1. 总 价 合同 协作 方式 


总 价 合同 是 先 设置 一 个 总 价 ， 然 后 按 流程 采 买 特定 产品 或 服务 。 在 
ACA, 买方 承担 的 风险 最 小 ， 他 们 通常 更 关注 工作 边界 。 总 价 合 
同 适 用 于 工作 边界 能 够 定义 清晰 的 项 目 ， 一 般 情 况 下 , 总 价 会 根据 工作 
范围 的 调整 而 变动 。 总 价 合同 分 为 3 种 : @ 固定 总 价 合同 (FFP) H 
前 ， 这 种 合同 类 型 最 为 常见 。 采 购 价 格 一 经 确定 ， 原 则 上 无 法 更 改 ， 特 
殊 情 况 如 工作 范围 调整 除外 。@ 总 价 奖励 费 合同 (FPIF )。 首 先 ， 需 要 
拟定 一 个 奖励 目标 , 用 来 衡量 卖方 的 产 出 价值 ,奖励 费用 主要 与 卖方 的 
成 本 或 绩效 相关 。 其 次 ,等 到 所 有 工作 完成 ， 评 价 卖方 绩效 ， 最 终 在 总 
价 基 础 上 敲定 最 终 合同 价格 。 要 注意 的 是 ,在 总 价 奖励 费 合 同 中 ,会 有 
一 个 最 高 的 价格 预期 , 卖方 不 仅 要 按时 完成 工作 , 而 且 要 承担 超出 最 高 
预期 的 所 有 成 本 。@ 总 价 加 经 济 价格 调整 合同 (FP-EPA )。 如 果 卖 方 
履行 约定 跨 域 时 间 ( 几 年 ) RK, 合同 应 使 用 此 类 型 。 如 果 买 方 和 卖方 
需要 保持 各 种 长 期 的 合作 关系 ,可 以 使 用 此 类 型 的 合同 。 在 外 部 条 件 有 
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变化 ,如 出 现 通货 膨胀 或 通货 紧缩 ， 该 类 型 合同 依然 是 围绕 双方 事先 约 
定 的 方式 调整 最 终 价格 。 


2. 成 本 补偿 合同 协作 方式 


这 种 合同 类 型 的 最 大 风险 人 是 卖家 , 以 卖家 参与 项 目的 实际 消耗 成 
本 为 付款 基础 , 适用 于 卖方 了 解 买方 采购 产品 或 服务 的 意图 , 但 工作 边 
界 无 法 准确 定义 的 情况 。 成 本 补偿 合同 有 以 下 四 大 类 。 

(1) 成 本 加 固定 费用 合同 

该 类 型 的 合同 由 两 部 分 组 成 ,首先 是 项 目 实际 成 本 , 其 次 是 固定 费 
用 ， 即 双方 事先 约定 好 的 买方 支付 给 卖方 的 固定 利润 。 

(2) 成 本 加 奖励 费用 

主要 包括 三 部 分 : 一 是 实际 消耗 成 本 ; 二 是 固定 费用 ;三 是 奖励 。 

(3) 成 本 加 奖励 费用 (CPAF) 

除了 买方 支付 给 卖方 的 实际 成 本 外 , 买方 还 会 额外 付 给 卖方 一 笔 利 
润 ， 但 金额 全 权 由 买方 决定 。 

(4) 成 本 加 百分比 合同 (CPPC) 

以 卖方 消耗 的 实际 成 本 为 基础 , 买方 再 增加 该 成 本 的 某 个 百分比 利 
W, 利润 的 高 低 完全 取决 于 卖方 消耗 的 成 本 大 小 , 缺点 是 不 能 把 控 对 卖 
方 的 限制 程度 。 


3. 工料 合同 协作 方式 


工料 合同 属于 混合 型 合同 , 集合 了 成 本 补偿 合同 和 总 价 合同 的 共同 
优势 ， 是 对 前 两 种 合同 的 补充 。 在 工作 说 明 书 情况 不 明朗 时 ,通常 用 工 
料 合同 来 进行 协作 。 与 前 两 种 合同 不 同 ,在 工料 合同 中 ,卖方 承担 最 小 
的 风险 , 无 须 对 最 终结 果 负 责 。 由 于 在 工料 合同 中 ,卖方 对 于 全 部 项 目 
而 言 的 作用 比较 小 , 在 整个 工作 中 只 起 部 分 作用 , 对 项 目的 最 终结 果 的 
影响 非常 小 ， 所 以 这 种 合同 并 没有 广泛 使 用 。 一 般 来 说 , 参考 项 目的 实 
际 情况 ， 选 择 特定 的 协作 方式 。 在 PMBOOK 里 ， 对 于 这 种 工料 合同 协 
作 方 式 的 使 用 场景 强调“ 项 目 工 作 说 明 书 定义 模糊 时 ,参照 工料 合同 
增 减 人 手 . ”这 就 意味 着 , 使 用 工料 合同 的 原因 并 不 是 项 目 工作 不 能 “ 精 
确 ”定义 ， 而 是 “无 法 ”对 项 目的 工作 进行 定义 ， 也 就 是 没有 项 目 工 作 
说 明 书 ， 即 没有 工作 范围 。 

上 述 3 种 合同 的 协作 方式 , 在 实际 的 工作 中 , 主要 使 用 总 价 合同 和 
成 本 补偿 合同 这 两 种 。 他 们 的 共同 特点 是 , 卖方 承担 对 结果 的 所 有 责任 ， 
并 按 要 求 交付 出 买方 满意 的 东西 ， 然 后 买方 和 卖方 进行 最 后 的 费用 结 
算 。 该 协作 方式 有 助 于 充分 保障 买方 的 利益 ,因此 被 广泛 运用 于 实际 工 


作 中 。 另 外 ,成 本 补偿 合同 和 工料 合同 两 种 协作 方式 会 产生 混淆 。 在 实 
际 的 情况 中 , 成 本 补偿 合同 限定 了 模糊 的 工作 边界 ,但 这 些 边界 不 是 不 
可 更 改 的 ， 需 要 在 实际 操作 中 灵活 应 变 。 而 工料 合同 则 往往 是 用 于 工作 
范围 无 法 确定 的 情况 ， 此 时 ， 没 有 任何 范围 ， 而 不 是 像 成 本 补偿 合同 
有 一 个 “大 致 ” 的 范围 。 所 以 工料 合作 合同 在 实际 的 工作 中 使 用 非常 少 。 


9.4 作业 与 练习 


一 、 填 空 题 
1. 大 数据 系统 下 的 服务 资源 管理 有 6 种 ,分别 是 : 





2. 大 数据 系统 业务 能 力 的 管理 有 两 个 部 分 ， 分 别 是 : 


3. 在 大 数据 业务 需求 评估 中 ， 收 集 需 求 的 输入 有 : 








4. 在 大 数据 系统 下 业务 需求 评估 的 4 种 方法 分 别 是 : 





5. 大 数据 系统 下 ， 业 务 需 求 趋势 预测 的 9 种 常见 方法 分 别 是 : 


` 








6. 大 数据 系统 的 服务 能 力 管理 包括 3 个 部 分 ， 分 别 是 : 


7. 大 数据 系统 人 员 能 力 动态 管理 的 4 种 措施 : ` 3 








8. 在 大 数据 的 系统 项 目 中 ， 划 分 的 角色 分 别 有 : 0 


` o 


9. 在 大 数据 系统 中 ， 用 户 、 供 应 商 、 厂 商 的 典型 协作 方式 通常 有 : 














10. 总 价 合同 主要 包括 : s " 3 种 。 

11. 成 本 补偿 合同 主要 有 4 种 ， 分 别 是 : 

二 、 简 述 题 

1. 简 述 如 何 做 好 大 数据 系统 业务 需求 评估 以 及 业务 需求 评估 对 企 
业 的 重要 性 。 

2. 简 述 业务 需求 趋势 预测 中 驱动 因素 预测 方法 的 步骤 。 
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3. 简 述 服务 成 本 动态 管理 的 定义 并 列举 出 大 数据 服务 成 本 动态 管 
理 依据 。 

4. 简 述 大 数据 人 员 能 力 动态 管理 的 重要 性 。 

5. 在 大 数据 系统 下 ， 企 业 需 要 人 员 具 备 哪些 综合 能 力 ? 

6. 简 述 大 数据 项 目 中 项 目 发 起 人 、 项 目 经 理 ， 以 及 项 目 成 员 在 项 
目 中 的 职责 。 

7. 简 述 3 种 合同 的 特点 和 区 别 。 
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目 中 的 职责 。 
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大 数据 和 人 工 智能 实验 环境 


1. 大 数据 实验 环境 


一 方面 ， 大 数据 实验 环境 安装 、 配 置 难 度 大 ， 高 校 难 以 为 每 个 学 生 
提供 实验 集群 ， 实 验 环境 容易 被 破坏 ; 另 一 方面 ， 实 用 型 大 数据 人 才 培 
养 面临 实验 内 容 不 成 体系 、 课 程 教材 缺失 、 考 试 系统 不 客观 、 缺 少 实 训 
项 目 以 及 专业 师资 不 足 等 问题 ， 实 验 开 展 束 手 束 脚 。 

大 数据 实验 平台 (bd.cstorcn) 可 提供 便捷 实用 的 在 线 大 数据 实验 
服务 。 同 步 提 供 实验 环境 、 实 验 课程 、 教 学 视频 等 ， 帮 助 轻松 开展 大 数 
据 教学 与 实验 。 在 大 数据 实验 平台 上 , 用户 可 以 根据 学 习 基 础 及 时 间 条 
ft, 灵活 安排 3 一 7 天 的 学 习 计划 ,进行 自主 学 习 。 大 数据 实验 平台 1.0 
界面 如 图 A-1 所 示 。 





图 A-1 大 数据 实验 平台 1.0 界面 





作为 一 站 式 的 大 数据 综合 实 训 平台 , 大 数据 实验 平台 同步 提供 实验 
环境 、 实 验 课程 、 教 学 视频 等 ， 方 便 轻松 开展 大 数据 教学 与 实验 。 平 台 
基于 Docker 容器 技术 ， 可 以 瞬间 创建 随时 运行 的 实验 环境 ， 虚 拟 出 大 
量 实验 集群 , 方便 上 百 用 户 同时 使 用 。 通过 采用 Kubernates 容器 编排 架 
构 管 理 集群 ,用 户 实验 集群 隔离 、 互 不 干扰 , 并 可 按 需 配置 包含 Hadoop、 
HBase、Hive、Spark、Storm 等 组 件 的 集群 ， 或 利用 平台 提供 的 一 键 搭 
建 集群 功能 快速 搭建 。 

实验 内 容 涵 盖 Hadoop 生态 、 大 数据 实战 原理 验证 、 综 合 应 用 、 自 
主 设计 及 创新 的 多 层次 实验 内 容 等 , 每 个 实验 呈现 详细 的 实验 目的 、 实 
验 内 容 、 实 验 原理 和 实验 流程 指导 。 实 验 课程 包括 36 个 Hadoop 生态 大 
数据 实验 和 6 个 真实 大 数据 实战 项 目 。 平 台 内 置 数据 挖掘 等 教学 实验 数 
据 ， 也 可 导入 高 校 各 学 科 数据 进行 教学 、 科 研 ， 校 外 培训 机 构 同 样 适用 。 

此 外 ， 如 果 学 校 需要 自己 搭建 专属 的 大 数据 实验 环境 ，BDRack 大 
数据 实验 一 体 机 (http://www.cstor.cn/proTextdetail 11007.html) 可 针对 
大 数据 实验 需求 提供 完善 的 使 用 环境 , 帮助 高 校 建 设 搭 建 私 有 的 实验 环 
境 。 其 部 署 规划 如 图 A-2 所 示 。 








图 A-2 BDRack 大 数据 实验 一 体 机 部 署 规划 


基于 容器 Docker 技术 , 大 数据 实验 一 体 机 采用 Mesos+ZooKeeper+ 
Mrathon 架构 管理 Docker 集群 。 实验 时 , 系统 预先 针对 大 数据 实验 内 容 
构建 好 一 系列 基于 CentOS7 的 特定 容器 镜像 ， 通 过 Docker 在 集群 主机 
内 构建 容器 ,充分 利用 容器 资源 高 效 的 特点 , 为 每 个 使 用 平台 的 用 户 开 
辟 属 于 自己 完全 隔离 的 实验 环境 。 容 器 内 部 ,用 户 完全 可 以 像 使 用 Linux 
操作 系统 一 样 地 使 用 容器 ， 并 且 不 会 被 其 他 用 户 的 集群 造成 任何 影响 ， 
只 需 几 台 机 器 , 就 可 能 虚拟 出 能 够 支持 上 百 个 用 户 同时 使 用 的 隔离 集群 
环境 。 图 A-3 所 示 为 BDRack 大 数据 实验 一 体 机 系统 架构 。 
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A-3 BDRack 大 数据 实验 一 体 机 系统 架构 


硬件 方面 , 采用 cServer 机 架 式 服务 器 ， 其 英特尔 * 至 强 * 处 理 器 ES 
产品 家 族 的 性 能 比 上 一 代 提 升 多 至 8096, 并 具备 更 出 色 的 能 源 效 率 。 通 
过 英特尔 ES 家 族 系列 CPU 及 英特尔 服务 器 组 件 , 可 满足 扩展 IO 灵活 
度 、 最 大 化 内 存 容量 、 大 容量 存储 和 元 余 计算 等 需求 : 软件 方面 ， 搭 载 
Docker 容器 云 可 实现 Hadoop, HBase, Ambari, HDFS, YARN, 
MapReduce, ZooKeeper. Spark, Storm, Hive. Pig. Oozie. Mahout, 
Python, R 语言 等 绝 大 部 分 大 数据 实验 应 用 。 

大 数据 实验 一 体 机 集 实 验 机 器 、 实 验 手册 、 实 验 数据 以 及 实验 培训 
于 一 体 ， 解 决 怎么 开设 大 数据 实验 课程 、 需 要 做 什么 实验 、 怎 么 完成 实 
验 等 一 系列 根本 问题 。 提 供 了 完整 的 大 数据 实验 体系 及 配套 资源 ,包含 
大 数据 教材 、 教 学 PPT、 实 验 手 册 、 课 程 视频 、 实 验 环境 、 师 资 培 训 等 
内 容 ， 涵 盖 面 较为 广泛 ， 通 过 发 挥 实验 设备 、 理 论 教材 、 实 验 手册 等 资 
源 的 合力 ， 大 幅度 降低 高 校 大 数据 课程 的 学 习 门 槛 ,满足 数据 存储 、 挖 
据 、 管 理 、 计 算 等 多 样 化 的 教学 科研 需求 。 具 体 的 规格 参数 表 如 表 A-1 
所 示 。 




















表 A-1 规格 参数 表 
配套 /型 号 增 强 型 
管理 节点 38 
处 理 节点 15 
上 机 人 数 150 人 





《大 数据 导论 》50 本 |《 大 数据 导论 》80 本 |《 大 数据 导论 》180 本 
实验 教材 |《 大 数据 实践 》50 本 |《 大 数据 实践 》80 本 |《 大 数据 实践 》180 本 
《实战 手册 》PDF 版 | CEREM) PDF 版 | CEREM) PDF 版 
配套 PPT | 有 有 有 
配套 视频 | 有 有 有 
免费 培训 提供 现场 实施 及 3 天 | 提供 现场 实施 及 5 天 | 提供 现场 实施 及 7 天 
技术 培训 服务 技术 培训 服务 技术 培训 服务 
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大 数据 实验 一 体 机 在 1.0 版 本 基础 上 更 新 升级 到 最 新 的 2.0 版 本 实 
验 体系 ， 进 一 步 丰富 了 实验 内 容 ， 实 验 课程 数量 新 增 至 85 +. AN, 
实验 平台 优化 了 创建 环境 一 实验 操作 一 提交 报告 一 教师 打分 的 实验 流 
程 ， 新 增 了 具有 海量 题库 、 试 卷 生 成 、 在 线 考 试 、 辅 助 评分 等 应 用 的 考 
试 系统 , 集成 了 上 传 数 据 一 指定 列表 一 选择 算法 一 数据 展示 的 数据 挖掘 
及 可 视 化 工具 。 

在 实验 指导 方面 , 针对 各 项 实验 所 需 , 大 数据 实验 一 体 机 配套 了 一 
系列 包括 实验 目的 、 实 验 内 容 、 实 验 步骤 的 实验 手册 及 配套 高 清 视 频 课 
程 ,内 容 涵盖 大 数据 集群 环境 与 大 数据 核心 组 件 等 技术 前 沿 , 详尽 细致 
的 实验 操作 流程 可 帮助 用 户 解 决 大 数据 实验 门槛 所 限 。 具 体 来 说 85 个 
实验 课程 包括 以 下 方面 。 

(1) 36 个 Hadoop 生态 大 数据 实验 。 

(2) 6 个 真实 大 数据 实战 项 目 。 

(3) 21 个 基于 Python 的 大 数据 实验 。 

(4) 18 MEF R 语言 的 大 数据 实验 。 

(5) 4 个 Linux 基本 操作 辅助 实验 。 

整套 大 数据 系列 教材 的 全 部 实验 都 可 在 大 数据 实验 平台 上 远程 开 
展 ， 也 可 在 高 校 部 署 的 BDRack 大 数据 实验 一 体 机 上 本 地 开展 。 

作为 一 套 完整 的 大 数据 实验 平台 应 用 ，BDRack 大 数据 实验 一 体 机 
还 配套 了 实验 教材 .PPT 以 及 各 种 实验 数据 , 提供 使 用 培训 和 现场 服务 ， 
中 国 大 数据 (thebigdata.cn)、 中 国 云 计 算 (chinacloud.cn)、 中 国 存 储 
Cchinastororg ) 、 中 国 物 联网 (netofthings.cn)、 中 国 智慧 城市 
(smartcitychina.cn) 等 提供 全 线 支 持 。 目 前 ，BDRack 大 数据 实验 一 体 
机 已 经 成 功 应 用 于 各 类 院 校 ， 国 家 “211 工程 ”重点 建设 高 校 代 表 有 郑 
州 大 学 等 ， 民 办 院 校 有 西京 学 院 等 。 其 部 署 图 如 图 A-4 所 示 。 


2. 人 工 智能 实验 环境 


人 工 智 能 实验 一 直 难以 开展 ， 主 要 有 两 方面 原因 。 一 方面 ， 实 验 环 
境 需要 提供 深度 学 习 计算 集群 ,支持 主流 深度 学 习 框架 ， 完 成 实验 环境 
的 快速 部 署 ,应 用 于 深度 学 习 模 型 训练 等 教学 实践 需求 , 同时 也 需要 支 
持 多 人 在 线 实验 。 另 一 方面 ， 人 工 智 能 实验 面临 配置 难度 大 、 实 验 入 门 
难 、 缺 乏 实验 数据 等 难题 ， 在 实验 环境 、 应 用 教材 、 实 验 手 册 、 实 验 数 
H BOR HESS Hi ASE, 以 大 幅度 降低 人 工 智 能 课程 学 习 门槛 ， 
满足 课程 设计 、 课 程 上 机 实验 、 实 习 实 训 、 科 研 训 练 等 多 方面 需求 ， 实 
现 教学 实验 效果 的 事半功倍 。 
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AlRack 人 工 智 能 实验 平台 Chttp://www.cstor.cn/proTextdetail 12031.html) 
基于 Docker 容器 技术 ， 在 硬件 上 采用 GPU+CPU 混合 架构 ， 可 一 键 创 
建 实验 环境 , 并 为 人 工 智能 实验 学 习 提 供 一 站 式 服 务 。 其 实验 体系 架构 
如 图 A-5 所 示 。 
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图 A-4 BDRack 大 数据 实验 一 体 机 实际 部 署 图 
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A-5 AlRack 人 工 智能 实验 平台 实验 体系 架构 


实验 时 ， 系 统 预 先 针对 人 工 智能 实验 内 容 构建 好 基于 CentOS7 的 
特定 容器 镜像 ， 通 过 Docker 在 集群 主机 内 构建 容器 ， 开 辟 完 全 隔离 的 
实验 环境 , 实现 使 用 几 台 机 器 即 可 虚拟 出 大 量 实验 集群 以 满足 学 校 实验 
室 的 使 用 需求 。 平台 采 用 Google 开源 的 容器 集群 管理 系统 Kubernetes, 
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能 够 方便 地 管理 跨 机 器 运行 容器 化 的 应 用 ， 提 供应 用 部 署 、 维 护 、 扩 展 
机 制 等 功能 。 其 平台 架构 如 图 A-6 所 示 。 
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container container container container container 
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图 A-6 AlRack 人 工 智 能 实验 平台 架构 
配套 实验 手册 包括 20 个 人 工 智 能 相关 实验 ， 实 验 基 于 VGGNet、 
FCN, ResNet 等 图 像 分 类 模型 ， 应 用 Faster R-CNN、YOLO 等 优秀 检 
测 框架 ， 实 现 分 类 、 识 别 、 检 测 、 语 义 分 割 、 序 列 预测 等 人 工 智 能 任务 。 
具体 的 实验 手册 大 纲 如 表 A-2 所 示 。 
表 A-2 实验 手册 大 纲 





课程 名 称 课程 内 容 说 明 s e pope 


基于 LeNet 模型 和 MNIST 数据 集 
基于 AlexNet 模型 和 CIFAR-10 数 
据 集 图 像 分 类 理论 + 上 机 训练 


基于 GoogleNet 模型 和 ImageNet 
数据 集 的 图 像 分 类 iiim 


基于 VGGNet 模型 和 CASIA WebFace | |. 
数据 集 的 人 脸 识别 EEAS 
基于 ResNet 模型 和 ImageNet 数 据 

集 的 图 像 分 类 理论 + 上 机 训练 


基于 MobileNet 模型 和 ImageNet 

数据 集 的 图 像 分 类 duda 
基于 DeepID 模型 和 CASIA WebFace| |... : 
数据 集 的 人 脸 验 证 ee 
基于 Faster R-CNN 模型 和 Pascal : , 
VOC 数据 集 的 目标 检测 icis 
基于 FCN 模型 和 Sift Flow 数据 集 
的 图 像 语 zon 











理论 + 上 机 训 


基于 YOLO 模型 和 COCO 数据 集 
的 目标 检测 
基于 SSD 模型 和 ImageNet 数据 集 
的 目标 检测 


理论 + 上 机 训 








理论 + 上 机 训 


续 表 


数据 集 的 目标 检测 





基于 linear regression 的 房价 预测 





基于 CNN 模型 的 高 尾 花 品 种 识别 | 理论 + 上 


17 | 基于 LSTM 模型 的 文字 生成 理论 + 上 机 训练 教师 、 
18 | 基于 LSTM 模型 的 英法 翻译 理论 + 上 机 训练 教师 、 


i] 
ill 15 B. 
16 | 基于 RNN 模型 的 时 序 预测 理论 + 上 机 训练 教师 、 学 生 
i 
fi 


基于 CNN Neural Style 模型 绘画 
风格 迁移 





理论 + 上 机 训练 








1.5 


教师 、 


基于 CNN 模型 灰色 图 片 着 色 教师 、 





同时 ， 平 台 同 步 提供 实验 代码 以 及 MNIST、CIFAR-10、ImageNet、 
CASIA WebFace、Pascal VOC、Sift Flow、COCO 等 训练 数据 集 ， 实 验 


数据 做 打包 处 理 ， 


AIRack 人 工 智 能 实验 平台 硬件 配置 如 表 A-3 所 示 。 
表 A-3 AlRack 人 工 智能 实验 平台 硬件 配置 





以 便 开展 便捷 、 可 靠 的 人 工 智 能 和 深度 学 习 应 用 。 

















产品 型 号 5 m 
CPU ER —1— E 2 
内 存 | 32GB DDR4RECC | o | 8 
SSD 480GB SSD | O R | 1 
硬盘 4TB SATA | x | 4 
GpU | iosop C esp) |e 8 
AIRack 人 工 智 能 实验 平台 集群 配置 如 表 A-4 所 示 。 
表 A-4 AlRack 人 工 智 能 实验 平台 集群 配置 
ao» | sx 型 增 强 型 
上 机 人 数 | 8 人 24 人 48 人 72 人 
服务 器 lie 38 94 
交换 机 无 S5720-30C-SI S5720-30C-SI 
CPU E5-2650V4 E5-2650V4 E5-2650V4 E5-2650V4 
— 1080P 1080P 1080P 1080P 
(型 号 可 选 ) (型 号 可 选 》 (型 号 可 选 ) (型 号 可 选 》 
内 在 8*32GB DDR4 | 24*32GB DDR4 | 48*32GB DDR4 | 72*32GB DDR4 
RECC RECC RECC RECC 
SSD 1*480GB SSD |3*480GB SSD |6*480GB SSD  |9*480GB SSD 
硬盘 A*ATB SATA. |12*4TB SATA. |24*4TB SATA | 36*4TB SATA 
在 人 工 智 能 实验 平台 之 外 ， 针 对 目前 全 国 各 大 高 校 相继 开启 深度 








5E 2] HH OS VR FE. DeepRack YR JE 5*2] — Wk BL. C httpz//www.cstor.cn/ 
proTextdetail 10766.html) 一 举 解决 了 深度 学 习 研 究 环 境 搭建 耗 时 、 硬 
件 条 件 要 求 高 等 种 种 问题 。 

凭借 过 硬 的 硬件 配置 , 深度 学 习 一 体 机 能 够 提供 最 大 每 秒 144 万 亿 
次 的 单 精度 计算 能 力 , 满 配 时 相当 于 160 台 服 务 器 的 计算 能 力 。 考 虑 到 
实际 使 用 中 长 时 间 大 规模 的 运算 需要 ， 一 体 机 内 部 采用 了 专业 的 散热 、 
能 耗 设计 ， 解 决 了 用 户 对 于 机 器 负荷 方面 的 忧虑 。 

一 体 机 中 部 署 有 TensorFlow、Caffe 等 主流 的 深度 学 习 开源 框架 ， 并 
提供 大 量 免费 图 片 数 据 ， 可 帮助 学 生 学 习 诸 如 图 像 识 别 、 语 音 识别 和 语言 


翻译 等 任务 。 利 用 一 体 机 中 的 基础 训练 数据 ， 包 括 MNIST、CIFAR-10、 
ImageNet 等 图 像 数据 集 , 也 可 以 满足 实验 与 模型 塑造 过 程 中 的 训练 数据 需 
求 。 深 度 学 习 一 体 机 外 观 如 图 A-7 所 示 ， 服 务 器 内 部 如 图 A-8 所 示 。 








BAT 深度 学 习 一 体 机 外 观 A-8 深度 学 习 一 体 机 节点 内 部 
深度 学 习 一 体 机 服务 器 配置 参数 如 表 A-5 所 示 。 
表 A-5 服务 器 配置 参数 

经 济 型 标 E 型 m oux 型 

Dual E5-2620 V4 Dual E5-2650 V4 Dual E5-2697 V4 
GPU Nvidia Titan X *4 Nvidia Tesla P100*4 | Nvidia Tesla P100*4 

240GB SSD+4T fÈ | 480GB SSD+4T f | 800GB SSD+4T*7 企 
业 盘 业 盘 





























计算 节点 数 
单 精度 浮 点 计算 
性 能 


系统 软件 


是 否 支持 分 布 式 
深度 学 习 系统 


3 4 





108 万 亿 次 / 秒 144 万 亿 次 / 秒 












Caffe, TensorFlow 深度 学 习 软 件 、 样 例 程序 ， 大 量 免 费 图 片 
数据 
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此 外 ,对 于 构建 高 性 价 比 硬件 平台 的 个 性 化 的 AI 应 用 需求 , dServer 
人 工 智能 服务 器 Chttp://www.cstor.cn/proTextdetail 12032.html) 采用 英 
特 尔 CPU+ 英 伟 达 GPU 的 混合 架构 ， 预 装 CentOS 操作 系统 ， 集 成 两 套 
行业 主流 开源 工具 软件 一 一 TensorFlow 和 Caffe， 同 时 提供 MNIST、 
CIFAR-10 等 训练 测试 数据 , 通过 多 类 型 的 软 硬 件 备 选 方案 以 及 高 性 能 、 
点 菜 式 的 解决 方案 , 方便 自由 选 配 及 定制 安全 可 靠 的 个 性 化 应 用 ,可 广 
泛 用 于 图 像 识别 、 语 音 识别 和 语言 翻译 等 AI 领域 。dServer 人 工 智能 服 
务 器 如 图 A-9 所 示 ， 配 置 参 数 如 表 A-6 所 示 。 





图 A-9 dServer 人 工 智 能 服务 器 


表 A-6 dServer 人 工 智能 服务 器 配置 参数 


参 数 
Tesla P100, Tesla P4, Tesla P40, Tesla K80, Tesla M40, 
Tesla MIO, Tesla M60, TITAN X, GeForce GTX 1080 


E 置 


GPU (NVIDIA) 




















CPU Dual E5-2620 V4, Dual E5-2650 V4, Dual E5-2697 V4 

内 存 64GB/128GB/256GB 

系统 盘 120GB SSD/180GB SSD/240GB SSD 

数据 盘 2TB/3TB/4TB 

准 系统 7048GR-TR 

软件 TensorFlow,Caffe 

数据 ( 张 ) 车 牌 图 片 (100 万 /200 万 /500 7j) ，ImageNet (100 F) , 





人 脸 图 片 数据 (50 万 ) ， 环 保 数据 


目前 , dServer 人 工 智 能 服务 器 已 经 在 清华 大 学 车 联网 数据 云 平台 、 
西安 科技 大 学 大 数据 深度 学 习 平 台 、 湖 北 文理 学 院 大 数据 处 理 与 分 析 平 
台 等 项 目 中 部 署 使 有 用。 其中， 清华 大 学 车 联网 数据 云 平台 项 目 配置 如 
图 A-10 所 示 。 
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名 称 深度 学 习 服务 器 
生产 厂家 南京 去 好 大 数据 科技 服 份 有 限 公司 
主要 规格 cServer C1408G 
CPU: 2*E5-2630v4 GPU: 4*NVIDIA TITAN X ATF: 4*16G (64G) DDR4.2133MHz, RECC 
硬盘 : 5* 25"300GB 10K SAS (PWR) 网 口 : 4 个 10/100/1000Mb 自 适应 以 太 网 口 
WW BR: 2000W 1*1 宛 余 电源 计算 性 能 : 单个 节点 单 情 度 浮 点 计算 性 能 为 44 万 亿 次 / 秒 








预 靶 Caffe、TensorfFlow 深 度 学 习 钦 件 、 样 例 程 序 ， 提 供 MNIST、CIFAR-10 等 训练 测试 数据 ， 提 供 交通 卡 口 图 片 
数据 不 少 于 400 万 张 ， 环 境 在 线 数据 不 少 于 6 亿 条 





图 A-10 ”清华 大 学 车 联网 数据 云 平台 项 目 配置 


综 上 所 述 ， 大 数据 实验 平台 1.0 用 于 个 人 自学 大 数据 远程 做 实验 ; 
大 数据 实验 一 体 机 受到 各 大 高 校 青 睐 , 用 于 构建 各 大 学 自己 的 大 数据 实 
验 教学 平台 ， 使 得 大 量 学 生 可 同时 进行 大 数据 实验 ; AIRack 人 工 智 能 
实验 平台 支持 众多 师 生 同时 在 线 进行 人 工 智 能 实验 ; DeepRack 深度 学 
习 一 体 机 能 够 给 高 校 和 科研 机 构 构 建 一 个 开 箱 即 用 的 人 工 智能 科研 环 
SG; dServer 人 工 智能 服务 器 可 直接 用 于 小 规模 AI 研究 ， 或 搭建 AI 科 


研 集群 。 


附录 B 


Hadoop 环境 要 求 


1. 硬件 要 求 


Hadoop 集群 需要 运行 几 十 、 几 百 甚至 上 千 个 节点 ， 选 择 匹 配 相应 
的 工作 负载 的 硬件 ， 能 在 保证 效率 的 同时 最 大 可 能 地 节省 成 本 。 
一 般 来 说 ，Datanode 的 推荐 规格 为 : 
O 4 个 磁盘 驱动 器 (1~4TB)。 
口 2 个 4 核 CPU (2~2.5GHz). 
口 16 一 64GB 的 内 存 。 
O 千 兆 以 太 网 (存储 密度 越 大 ， 需 要 的 网 络 吞 吐 量 越 高 )。 
Namenode 的 推荐 规格 为 : 
O 8 一 12 个 磁盘 驱动 器 (1~4TB)。 
O 2 个 4/8 核 CPU (2~2.5GHz). 
O 32~128GB 的 内 存 。 
OQ 千 兆 或 万 兆 以 太 网 。 


2. 操作 系统 要 求 
HDP 2.6.0 支持 的 操作 系统 版 本 如 表 B-1 所 示 。 
表 B-1 HDP 2.6.0 支持 的 操作 系统 版 本 


操作 系统 版 本 
CentOS 7.0/7.1/7.2 
CentOS 6.1/6.2/6.3/6.4/6.5/ 6.6/6.7/6.8 
Debian 7 






















CentOS (64bit) 





Debian 





续 表 
操作 系统 


Oracle (64bit) 


版 本 
Oracle 7.0/7.1/7.2 
Oracle 6.1/6.2/6.3/6.4/6.5/6.6/6.7/6.8 
RHEL 7.0/7.1/7.2 
RHEL 6.1/6.2/6.3/6.4/6.5/6.6/6.7/6.8 
(SLES) Entreprise Linux 12, SP2 
(SLES) Enterprise Linux 12, SP1 
(SLES) Enterprise Linux 11, SP4 
(SLES) Enterprise Linux 11, SP3 
Ubuntu 16.04 (Xenial 
Ubuntu 14.04 (Trusty) 








Red Hat (64bit) 








SUSE (64bit) 





SUSE (64bit) 


Ubuntu (64bit) 





3. 浏览 器 要 求 


Ambari 是 基于 Web 的 Apache Hadoop 集群 的 供应 、 管 理 和 监控 工 
具 ， 需 要 浏览 器 的 支持 ， 支 持 的 浏览 器 版 本 如 表 B-2 所 示 。 


表 B-2 Ambari 2.5.0 支持 的 浏览 器 版 本 


操作 系统 浏 览 器 
: Chrome 56.0.2924/57.0.2987 
Linux 5 
Firefox 51/52 
Chrome 56.0.2924/57.0.2987 
Mac OS X Firefox 51/52 
Safari 10.0.1/10.0.3 
Chrome 56.0.2924/57.0.2987 
s Edge 38 
Windows 





Firefox 51.0.1/52.0 
Internet Explorer 10/11 








(1) Java 环境 要 求 
Hadoop 是 由 Java 实现 的 ， 需 要 Java 环境 支持 ， 支 持 的 JDK 版 本 
如 表 B-3 所 示 。 
表 B-3 HDP 2.6.0 支持 的 JDK 版 本 


JDK 版 本 





IDK8} 

JDK71, deprecated 

JDK 8, 64bit (minimum JDK 1.8.0 77), default 
JDK 7, 64bit (minimum JDK 1.7 67), deprecated 


(2) Python 环境 要 求 
Hadoop 的 Web 工具 ambari 是 基于 Python 语言 编写 的 ， 需 要 安装 
Python 环境 。HDP 2.6.0 支持 的 Python 版 本 为 2.6 及 以 上 。 


Open Source 








Oracle 





名 词 解释 


有 关 大 数据 的 一 些 名 词 解释 如 表 C-1 所 示 。 














表 C-1 名 词 解释 
名 词 解 释 

m Apache Ambari 是 一 种 基于 Web 的 工具 ， 支 持 Apache Hadoop 
集群 的 供应 、 管 理 和 监控 

Browser 网 页 浏览 器 ， 文 中 如 非特 指 ， 采 用 的 是 Google Chrome 浏览 器 

CAB 变更 咨询 委员 会 (Change Advisory Board) 

CCB 配置 控制 委员 会 (Configuration Control Board) 

CDH Cloudera Distribution Hadoop, B} Cloudera 公司 的 发 行 版 Hadoop 
配置 项 (Configuration Item) 是 指 要 在 配置 管理 控制 下 的 资产 、 
人 力 、 服 务 组 件 或 者 其 他 逻辑 资源 。 从 整个 服务 或 系统 来 说 ， 

CI 包括 硬件 、 软 件 、 文 档 、 支 持 人 员 到 单独 软件 模块 或 硬件 组 件 
(CPU、 内 存 、SSD、 硬盘 等 )。 配置 项 需要 有 整个 生命 周期 ( 状 
态 ) 的 管理 和 追溯 (日志) 

m Command Line Interface， 命 令 行 界面 ， 用 户 可 以 在 该 界面 输入 
命令 ， 对 系统 进行 操作 
配置 管理 (Configuration Management)， 是 通过 技术 或 行政 手段 

CM 对 软件 产品 及 其 开发 过 程 和 生命 周期 进行 控制 、 规 范 的 一 系列 
措施 
配置 管理 数据 库 (Configuration Management Database), Hi ff 

Gp 储 与 管理 企业 IT 架构 中 设备 的 各 种 配置 信息 , 它 与 所 有 服务 支 





持 和 服务 交付 流程 都 紧密 相 联 ， 支 持 这 些 流程 的 运转 、 发 挥 配 
置信 息 的 价值 ， 同 时 依赖 于 相关 流程 保证 数据 的 准确 性 








续 表 
名 词 解 释 
CMS 配置 管理 系统 (Configuration Management System) 
拒绝 服务 (Denial of Service), DoS 攻击 是 通过 大 量 访问 耗 尽 被 
DoS 攻击 对 象 的 资源 ， 让 目标 计算 机 或 网 络 无 法 提供 正常 的 服务 或 
资源 访问 ， 使 目标 系统 服务 系统 停止 响应 甚至 崩溃 
ECAB 紧急 变更 咨询 委员 会 (Emergency Change Advisory Board) 





Elastic Search 


一 个 基于 Lucene 的 搜索 服务 器 ， 常 用 于 日 志 分 析 





GUI 


图 形 用 户 界面 (Graphical User Interface) 





























Hadoop 一 个 由 Apache 基金 会 所 开发 的 分 布 式 系统 基础 架构 

Hbase HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 数据 库 

HDP Hortonworks Data Platform，Hortonworks 公司 的 Hadoop 平台 

-— Cloudera 公司 主导 开发 的 新 型 查询 系统 ， 它 提供 SQL 语义 ， 能 
查询 存储 在 Hadoop 的 HDFS 和 HBase 中 的 PB 级 大 数据 

ISO2000 信息 技术 服务 管理 体系 标准 ， 是 面向 机 构 的 IT 服务 管理 标准 
IT 基础 架构 库 即 信息 技术 基础 架构 库 (ITIL, Information 
Technology Infrastructure Library) 由 英国 政府 部 门 CCTA (Central 

TE Computing and Telecommunications Agency) 在 20 世纪 80 4E 4X 
末 制 订 , 现 由 英国 商务 部 OGCC Office of Government Commerce ) 
负责 管理 ， 主 要 适用 于 IT 服务 管理 (ITSM)。ITIL 为 企业 的 IT 
服务 管理 实践 提供 了 一 个 客观 、 严 谨 、 可 量化 的 标准 和 规范 

Job 作业 ， 指 提交 到 Hadoop 大 数据 系统 中 运行 的 作业 
一 种 编程 模型 ， 用 于 大 规模 数据 集 (大 于 1TB) 的 并 行 运算 。 
概念 “Map〔 映 射 )” 和 “Reduce( 归 约 )”， 是 它们 的 主要 思想 ， 
都 是 从 函数 式 编程 语言 里 借 来 的 ， 还 有 从 矢量 编程 语言 里 借 来 

i 的 特性 。 它 极 大 地 方便 了 编程 人 员 在 不 会 分 布 式 并 行 编程 的 情 
况 下 , 将 自己 的 程序 运行 在 分 布 式 系 统 上 。 当前 的 软件 实现 是 
指定 一 个 Map〈 映 射 〉 函 数 ， 用 来 把 一 组 键 值 对 映射 成 一 组 新 
的 键 值 对 ， 指 定 并 发 的 Reduce( 归 约 ) 函数 ， 用 来 保证 所 有 映 
射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 

Master EWA, HHR Hadoop 大 数据 系统 的 主 服务 器 节点 
一 个 介 于 关系 数据 库 和 非 关 系数 据 库 之 间 的 产品 ， 是 非 关 系数 

MongoDB 据 库 当中 功能 最 丰富 ， 最 像 关 系数 据 库 的 ， 支 持 的 数据 结构 非 
常 松散 ， 是 类 似 json 的 bson 格式 , 因此 可 以 存储 比较 复杂 的 数 
据 类 型 

MTTF Mean Time To Failure， 平 均 失 效 前 时 间 

MTTR mean time to restoration, 平均 恢复 前 时 间 

NoSQL Not only SQL， 泛 指 非 关系 型 的 数据 库 

p Network Time Protocol， 通 过 网 络 对 时 的 协议 ， 用 于 将 多 台 服 务 
器 的 时 间 保 持 一 臻 

OTRS Open Technology Real Services， 一 种 工 单 管 理 软件 





续 表 


解 释 
PDCA 是 英语 单词 Plan (计划 )、Do (执行 )、Check (检查 ) 和 
Adjust (纠正 ) 的 第 一 个 字母 ，PDCA 循环 就 是 按照 这 样 的 顺序 
进行 质量 管理 ， 并 且 循 环 不 止 地 进行 下 去 的 科学 程序 





RPO 
RTO 
Slave 
Spark 


Sqoop 


SSH 


Storm 
Task 
Tivoli 
Yarn 


Zookeeper 


配置 基线 


Redundant Arrays of Independent Disks， 磁 盘 阵列 ， 磁 盘 阵列 是 
由 很 多 价格 较 便 宜 的 磁盘 ， 组 合成 一 个 容量 巨大 的 磁盘 组 ， 利 
用 个 别 磁盘 提供 数据 所 产生 的 加 成 效果 提升 整个 磁盘 系统 效能 
Recovery Point Objective， 灾 备 切换 后 ， 数 据 丢 失 的 时 间 范 围 
Recovery Time Objective， 业 务 从 中 断 到 恢复 正常 所 需要 的 时 间 
从 节点 ， 指 构成 Hadoop 大 数据 系统 的 从 服务 器 节点 

专 为 大 规模 数据 处 理 而 设计 的 快速 通用 的 计算 引擎 

一 款 开 源 的 工具 ， 主 要 用 于 在 Hadoop (Hive) 与 传统 的 数据 库 
(mysql、postgresql...) 间 进 行 数据 的 传递 ， 可 以 将 一 个 关系 型 
数据 库 ( 如 MySQL, Oracle, Postgres 等 ) 中 的 数据 导入 到 Hadoop 
的 HDFS 中 ， 也 可 以 将 HDFS 的 数据 导入 到 关系 型 数据 库 中 
Secure Shell， 专 为 远程 登录 会 话 和 其 他 网 络 服务 提供 安全 性 的 
协议 

一 个 分 布 式 的 、 可 靠 的 、 容 错 的 数据 流 处 理 系统 

任务 ， 指 hadoop 作业 中 分 解 出 来 执行 的 任务 

IBM 公司 为 运 维 管理 开发 的 软件 产品 

Yet Another Resource Negotiator, 一 种 新 的 Hadoop 资源 管理 器 
一 个 分 布 式 的 ,开放 源码 的 分 布 式 应 用 程序 协调 服务 , 是 Google 
的 Chubby 中 一 个 开源 的 实现 ,是 Hadoop 和 HBase 的 重要 组 件 。 
它 是 一 个 为 分 布 式 应 用 提供 一 致 性 服务 的 软件 ， 提 供 的 功能 包 
括 配置 维护 、 域 名 服务 、 分 布 式 同步 、 组 服务 等 

在 服务 或 服务 组 件 的 生命 周期 中 ， 某 一 时 间 点 被 正式 指定 的 配 
置信 息 


